Loss Function
- 理论基础:中心极限定理
- 误差符合高斯分布
- 公式推导
解释了为什么损失函数是这个形式
模型求解
意义:理论上推导出模型可解,但对矩阵求导,计算量很大,实际不采用
对目标函数求梯度
使梯度为0
为什么能添加扰动能防过拟合?
通过实践可得,当n维特征向量映射成更高维的特征时,最后求解得到的参数值都很大,因此希望在原loss function基础上添加关于参数的项,来作为对模型复杂度的惩罚
为什么加了扰动后一定可逆?
对新的目标函数求梯度
复杂度惩罚因子
LASSO:
- L2-norm:性能往往不错,但没有特征选择功能
- L1-norm:高阶系数接近于0,相当于进行了特征选择
- Elastic Net:L1-norm与L2-norm融合
感性解释:从实验出发,跑代码,当过拟合发生时,其系数很大,因此想把其系数也作为损失函数的一部分
帮助理解的解释:
拉格朗日乘子法,推导出L1-norm的形式
广义逆矩阵(伪逆)
模型优化
- 批量梯度下降算法
- 随机梯度下降算法:支持在线学习
- mini-batch