线性回归总结
1.简单原理:用一条直线去拟合数据,将其称之为线性关系
2.线性回归的标签是连续性数值,如年龄、房价等等数值型信息。
3.线性回归的损失函数:
-
L1-distance:
L1损失函数是将预测值y_hat与真实值y_true的残差绝对值化,这意味着数据的偏差bias对预测的效果影响比较大,对数据的的准确度要求更加苛刻。 -
L2-distance:
L2损失函数是将预测值y_hat与真实值y_true的残差平方化,这意味着数据的偏差Variance对预测的效果影响比较大,如果模型产生过拟合,那么L2的值就会变大。 -
在模型训练过程中,我们会先追求将bias偏差变小,使得模型更加拟合数据集的分布,但如果训练次数过多,一味的追求bias的减小,同时也会把噪音数据也作为学习范畴,从而产生过拟合overfitting。一旦输入新的数据分布,Variance方差就会变大,反而模型的泛化能力就会变差。所以模型的学习是个trade-off(平衡)的问题。
4.梯度下降
- 首先将数据输入到模型中,获取预测值y_hat。
- 将y_hat和y_true放到损失函数中,并对每个参数求其偏导。
- 把偏导值代入到梯度下降公式中,对每个参数进行梯度下降更新,从而使得loss值变得更小。
5.线性回归的优缺点
-
优点:
1.建模速度快,不需要很复杂的计算
2.可解释性强 -
缺点:
1.因为是线性模型,会对异常值比较敏感,容易学到噪声数据,产生过拟合,鲁棒性较差
6.线性回归流程图总结
逻辑回归总结
1.简单原理:用一条直线去拟合数据,并通过Sigmoid函数将拟合的值映射到[0,1]的区间范围,从而表示该事件发生的概率。
2.逻辑回归是分类问题,其标签label是类别型/离散型数值,如”是与否“、”X类与Y类“。
3.逻辑回归损失函数(交叉熵):
- 对于二分类问题,label的分布为正样本or负样本,一般来讲,我们都是针对正样本做分析,即y_true=1,所以由上图公式得知,当y_true=1,公式的右半边(1-y_true)=0,只剩下左半边的公式,此时我们对预测值y_hat倾向为1,即可获得更小的loss。
4.逻辑回归-梯度下降
- 与线性回归一样,通过模型求得的y_hat,与y_true放到损失函数中,求得每个参数的偏导,并根据梯度下降公式,梯度更新迭代每个参数值,使得loss函数变得更小。
5.逻辑回归的优缺点
- 优点:
1.容易理解和实现,可以观测样本的概率
2.训练速度快
3.由于经过了Sigmoid函数的映射,对数据中小噪声的鲁棒性好 - 缺点
1.容易欠拟合
2.当特征空间很大时,表现效果不是很好
3.由于sigmoid函数的特性,接近0/1的两侧概率变化较平缓,中间概率敏感,波动较大;导致很多区间特征变量的变化对目标概率的影响没有区分度,无法确定临界值
6.Tips
Q:为什么损失函数不写成:
- A:由下图可知,原损失函数比上述损失函数具有更优的特性。对于原损失函数,当损失值远离0时,原损失函数会更新的更快,使得损失值更快地接近于0;而对于上述损失函数,其损失值更新的速度始终是一样的(线性特点:保持相对稳定)。
7.逻辑回归流程图总结
逻辑回归延伸-多分类问题之softmax
1.原理简述:softmax相对于逻辑回归是一个更高维的输出,它表示不同概率的输出。如果说逻辑回归是处理二分类问题,那么softmax就是处理多个二分类问题。
如上图所示,当我们将线性函数放到softmax函数中,即可求得每个label发生的概率y_hat。然后将y_hat和y_true通过交叉熵损失函数cross-entropy求出参数的偏导,通过梯度下降,更新参数的值,使交叉熵cross-entropy不断接近于0,即损失函数loss接近于0。