学习笔记 机器学习2.2

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Dove_forehead/article/details/79659314

参数计算分析——Computing Parameters Analytically

==================

正规方程——Normal Equation


介绍一种有别于梯度下降算法的算法,正规方程
正规方程——一种直接一次性求解 θ 的最优值解析。

正规方程
算法
已知:
在参数为1D的情况下:J(θ)=aθ2+bθ+c
在参数为多个的情况下:
θRn+1,J(θ0,θ1,...,θm)=12mi=1m(hθ(x(i))y(i))2
求:
θJ(θ)=···=0  (for every j)
求解 θ0,θ1,...,θn


**Example:**m=4

Size (feet*feet) Number of bedrooms Number of floors Age of home(years) Price ($1000)
x0 x1 x2 x3 x4 y
1 2104 5 1 45 460
1 1416 3 2 40 232
1 1534 3 2 30 315
1 852 2 1 36 178

则:

X=[12104514546011416324023211534323031518522136178]

y=[460232315178]

所以X是一个m(n+1)的矩阵,y是一个m维的向量。其中m是训练样本的数量,n是特征的数量。
正规方程的运算公式为:
θ=(XTX)1XTy

一般情况下:
m example (x(1),y(1)),(x(2),y(2)),(x(m),y(m)); nfeature.
x(i)=[x0(i)x1(i)...xn(i)]Rn+1
转换为:
x(i)=[(x(1))T(x(2))T...(x(m))T]Rn+1
根据正规方程,可以得到参数的计算公式为:
θ=(XTX)1XTy

梯度下降和正规方程的对比:
m 个训练样本,n 个特征。

梯度下降 正则方程
需要选择学习率 不需要选择学习率
需要很多次迭代 不需要多次迭代
特征集较大时运行良好 特征集较大时运算较慢 需要计算(XTX)1
O(kn2) O(n3)

展开阅读全文

没有更多推荐了,返回首页