一、过拟合
1、定义:模型在训练集上效果好,在测试集上表现差;
2、原因:
(1)参数过多,模型复杂度高;
(2)样本中噪声数据较大,模型学习到了噪声中的特征;
(3)对于决策树模型,对决策树的生长没有合理的限制和修建;
(4)对于神经网络模型,权值学习迭代次数足够多,拟合了训练中的噪声和训练样例中没有代表性的特征;
3、解决方案:
(1)降低模型复杂度;
(2)增大训练集,训练集增加之后就能学习大更多具有代表性的特征;
(3)增加正则项,减小参数,进一步降低模型复杂度;
(4)对神经网络,采用dropout
(5)对于决策树,采用early stopping,模型对训练数据集迭代收敛之前停止,防止过拟合;
(6)采用ensemble learning(集成学习),可以有效的减轻过拟合,bagging通过平均多个模型的结果,来降低模型的方差,boosting可以减小偏差和方差;
(7)Batch Normalization:加快训练、消除梯度爆炸/消失、防止过拟合,不适用太小batch
二、逻辑回归的损失函数
1、sigmoid函数优点:
(1)数据压缩能力,将数据约在[0,1]之间;
(2)导数计算方便;
2、sigmoid函数缺点:
(1)存在梯度消失问题,当x稍大的情况就接近一条水平线;
(2)zigzag问题,非0中心化,在神经网络算法等情况下,造成反向传播时权重的全正全负的情况;可能导致模型收敛速度慢;
3、交叉熵函数:
相比欧式距离,交叉熵函数是凸函数,凸函数求解方便;
4、逻辑回归是判别模型
判别模型:直接输出后验概率,没有对类条件概率或联合概率建模;
三、正则化
1、L1能把feature压缩到0而L2正则不能
(1)L1正则只要不是特殊情况下与正方形的边相切,一定是与某个定点优先相交,那么必然存在横纵坐标中的一个系数为0,起到对变量筛选的作用。
(2)L2正则在圆的限制下,点可以是圆上的任意一点,对岭回归来说,是起不到压缩变量作用的。
四、分类模型
1、如何选择:
数据量越大,神经网络越好ÿ