机器学习基础知识2

最新推荐文章于 2024-09-22 16:31:17 发布

薛定谔有没有猫我也不知道

最新推荐文章于 2024-09-22 16:31:17 发布

阅读量134

点赞数

分类专栏：机器学习基础算法文章标签：机器学习线性回归逻辑回归

本文链接：https://blog.csdn.net/weixin_42924395/article/details/90245686

版权

机器学习基础算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习基础知识之逻辑回归打卡2

逻辑回归与线性回归

逻辑回归与线性回归定义

逻辑回归的定义

逻辑回归通常用来解决二分类问题(也可以解决多分类问题), 用于估计某种事物的可能性. 通过 Logistic 函数将拟合函数的输出值归一化到 (0, 1) 之间, 可以将其认为是分类为 1 类的预测概率. Logistic 函数公式(和 Sigmoid 函数形式形式相同)如下: Logistic 函数定义
Logistic(Sigmoid) 函数的求导公式有一个特性: g′(z)=g(z)(1−g(z)).

线性回归的定义

线性回归通常是解决连续数值预测问题, 来确定变量之间的相互依赖关系. 其公式通常表示如下:
y=θTx+e

逻辑回归与线性回归的联系和区别

线性回归主要解决连续量的预测，逻辑回归则是一个分类算法，主要有二分类等。
见逻辑回归与线性回归

逻辑回归的原理、损失函数推导和优化以及正则化

可以参考逻辑回归原理小结

模型评估指标

参考博主 yang1young的内容

逻辑回归的优缺点

优点：不是硬性地将分类结果定为0或者1，而是给出了0和1之间的概率。计算代价不高，易于理解和实现，且若采用随机梯度上升法可以在线学习；
缺点：可能容易欠拟合，分类精度不高，这个可能是因为我们无法找到足够的特征。

样本不均衡问题解决办法

逻辑回归等分类方法的共同基本假设：不同类别的训练样例数目相当。

类别不平衡：分类任务中不同类别的训练样例数目差别很大。

存在的问题：会对学习过程造成困扰，比如样本大部分都是反例、正例很少，则训练的学习器没有价值，因为无法预测出任何正例。

解决方法：再缩放（rescaling），假设反例过多，正例很少

欠采样（undersampling）：去除一些反例使得正、反例数目接近。不能随机丢弃反例，比如可以通过EasyEnsemble算法，利用集成学习机制将反例划分为若干个集合供不同学习器使用，这样看来对每个学习器都进行了欠采样，但是在全局看来却不会丢失重要信息。
过采样（oversampling）：增加一些正例使得正、反例数目接近。不能简单对正例样本进行重复采样，可以通过SMOTE算法对训练集的正例进行插值来产生额外的正值
阈值移动（threshold-moving）：直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，基于样本中正反例比例对预测值进行调整
（参考https://blog.csdn.net/weixin_42914573/article/details/88954123）