形式
h(x)=∑i=0nθixi=θTx
代价函数:
J(θ)=12∑i=1m(h(x(i)θ)−y(i))2
LMS(Least Mean Squares)算法
- 参数更新原则
梯度下降法,参数沿着使代价函数下降最快的方向改变,其中 α 为学习速率
- 单样本更新
可以看到,当误差( y(i)−hθ(x(i)) )越大时,参数更新幅度越大,反之较小。
这只是针对一个样本的情况,当有多个样本时,有以下两种方法更新参数 - 批处理算法
- 随机梯度下降法(stochastic gradient descent)
由于批处理算法每次更新都需要浏览整个数据集,所以,通常来说(特别是训练街特别大的时候),随机梯度下降法具有更快的收敛速度。
- 单样本更新
- 参数更新原则
LMS的矩阵表示
矩阵知识
- 矩阵导数
迹
如果
AB
是方阵则trAB=trBA
,同理
其他性质
(4)
中要求A为非奇异矩阵
- 矩阵导数
- 矩阵表示LMS
由(2)(3)
可得
所以
其中第二步到第三步是因为 J(θ) 是一个实数,而对于实数a有a=tr(a)
;
第三步到第四步是因为 trA=trAT ;
第四步到第五步利用了公式(5)
,其中 AT=θ,B=BT=XTX,C=I
当 J(θ) 最小时,其对于 θ 的导数为0,即有 XTXθ=XTy 即 θ=(XTX)−1XTy
线性回归代价函数
J
解释- 形式:将目标变量和自变量通过下式联系起来:
其中 ϵ(i) 是误差项并且假设它服从高斯(Gaussian)独立同分布(IID, independently and identically distributed)
即
为了强调这个函数是由 θ 决定,我们将其称为似然函数:
由于 ϵ(i) 是独立同分布的,所以
根据最大似然法则,我们应该选择使上面似然概率最大的 θ ,为了方便,将其化为下面的对数似然函数形式
所以,最大化似然函数等价于最小化下式:
这就是我们前面提到的代价函数
- 形式:将目标变量和自变量通过下式联系起来:
局部加权线性回归(LWR locally weighted linear regression)
当 ω 很大时,该项在代价函数中的作用变得很明显;反之,对应项的误差将会被忽略。目的: 防止过拟合
ω 的选择:
x(i) 为第i个样本点,x为查询点,两者越接近,对应项权重越靠近1,否则,趋近于0; τ 被称为带宽(bandwidth)参数,它控制权重相对于 x(i)−x 改变的快慢。
这是我们接触的第一个非参数方法
(斯坦福机器学习教程)