1,线性回归与逻辑回归区别?
- 在拟合数据上,线性回归是用一条线直接拟合训练数据,而逻辑回归先利用sigmoid函数将数据映射为相应分类的概率拟合概率;
- 在学习策略上,线性回归利用最小二乘法使损失函数(均方误差)最小化,而逻辑回归利用梯度下降法使损失函数(最大似然函数/交叉熵)最小化,即求所有训练样本的条件概率之积的最大值。
2,为什么用对数似然函数?
使用最大似然函数时,很多样本的概率需要连乘,概率为(0,1)间的数,连乘会越来越小趋近于0(即梯度消失问题),利用log变换可以将连乘变为连加,很好的改善了梯度消失问题。
3,什么是信息熵、交叉熵?
- 信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。另外信息熵代表根据真实分布,需要消除整个系统不确定性付出的代价,信息熵越大需要付出的代价就越大说明原来越不稳定。
- 交叉熵则是用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的代价。
交叉熵的公式为
其中p为真实分布下的概率,q为非真实分布下假定的概率,交叉熵越低则说明这个策略就越好,假定的分布就越接近真实分布,所以在逻辑回归中我们最小化交叉熵。在极端情况下当 p = q 时,交叉熵 = 信息熵