梯度
该方向上升最大的方向
梯度下降法
原因
- 并不是所有的矩阵都有逆
- 计算量会很大
梯度下降法更新参数
沿着负梯度的方向 下降
Θ1=Θ1−αdJ(Θ))dΘ1
Θ
1
=
Θ
1
−
α
d
J
(
Θ
)
)
d
Θ
1
凸函数
曲线上两点连线 这个连线中间的线段上的点在曲线上方 就是凸函数
过拟合
- 如果有很多特征的模型,很复杂模型,我们的假设函数可以对原始数据拟合的很好,但是丧失了一般性,拿来新的样本点后,预测效果差。
- 所有的模型都可能存在过拟合的风险:
- 更多的参数,更复杂模型
- 眼见不一定为实,看到的数据并不一定是全部的真是数据分布
正则化
正则化很多方法,下面先介绍其中之一
- 控制参数幅度,控制住参数的搜索空间,加以约束
- 损失函数
J(Θ)=12m∑i=1m(hΘ(x(i)−y(i)))2 J ( Θ ) = 1 2 m ∑ i = 1 m ( h Θ ( x ( i ) − y ( i ) ) ) 2
- 加入了正则化项后是这样的
J(Θ)=12m∑i=1m(hΘ(x(i)−y(i)))2+λ∑j=1nΘ2j J ( Θ ) = 1 2 m ∑ i = 1 m ( h Θ ( x ( i ) − y ( i ) ) ) 2 + λ ∑ j = 1 n Θ j 2
其中λ λ不能太大也不能太小
- 加入了正则化项后是这样的
-L1正则化使用绝对值
-L2正则化使用平方项,如上公式即使用L2正则化