第二课 监督学习应用 梯度下降

1. 最小均方误差算法

h(x) 为目标函数
θ 为参数parameters
xn 为特征
n 为特征个数
m为训练集的个数
则在线性假设下

h(x)=hθ(x)=θ0+θ1x1+θ2x2+...+θnxn


h(x)=hθ(x)=i=0nθixi=ΘTX

根据训练集(training sets)求出 Θ
其中一种方法为最小二乘方(LMS,least mean squares):
minθ  J(θ)

其中
J(θ)=12i=1n(hθ(xi)yi)2

表示估计值与真实值之间的误差

计算求解 θ 的一种方法为梯度下降法:
这里写图片描述
考虑只有一个样本点时
对于只有一个样本点的情况
这里写图片描述
重复对上式计算,直到 θ 值不变时,结果收敛。
其中, α 为调整收敛速度大小的参数,该算法结果与初始值的设定有关,结果可能是局部最优解(local optimal)。在线性假设下,该结果为全局最优解。

将该方法拓展到对个训练对象时,有两种梯度下降方法,第一种叫做批量梯度下降(batch gradient descent):
这里写图片描述
该方法最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。计算量大

另外一种叫做随机梯度下降(stochastic gradient descent):
这里写图片描述
该方法最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。计算量小

2.一些常见方程

2.1矩阵微分

矩阵微分的符号为:
这里写图片描述

迹的符号为
这里写图片描述
关于矩阵迹的一些性质
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这些性质可以自己证明

2.2再探最小均方差

下面将用矩阵运算的思想来求解最小均方差的解
首先把目标函数使用矩阵形式表示
这里写图片描述
这里写图片描述
这里写图片描述
上式证明,将问题矩阵化后,导数为0,可以求出 θ 的值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值