1多变量线性回归
1.1 回顾单变量线性回归
- 训练集提出:
Training set of housing prise 以房屋价格为例
Size in feet(x) | Price in 1000’s (y) |
---|---|
2104 | 460 |
1416 | 232 |
1532 | 315 |
852 | 178 |
… | … |
- 假设函数Hypothesis
- 代价函数 cost function
平方误差和函数:
- 梯度下降
Want min J(theat 0 , theat 1 );
其中α表示步长,每次前进梯度的权重;每次对θi进行负梯度方向的更新,一旦对应的代价函数取值足够小则认为找到局部最小值。
并且
此处需要同步更新θ参数。 - 梯度下降结合线性回归,求导计算结果如下
1.2多元梯度下降问题
面积 | 房间数量 | 楼层 | 房龄 | 价格 |
---|---|---|---|---|
2104 | 5 | 1 | 45 | 460 |
1464 | 3 | 2 | 40 | 232 |
… | … | … | … | … |
1534 | 2 | 1 | 36 | 315 |
x
i
表
示
一
个
包
含
所
有
特
征
的
列
向
量
(
i
=
0
,
1
,
.
.
.
n
)
;
x
j
表
示
某
一
特
征
的
全
部
样
本
的
列
向
量
;
x^i 表示一个包含所有特征的列向量(i = 0,1,...n);x_{j}表示某一特征的全部样本的列向量;
xi表示一个包含所有特征的列向量(i=0,1,...n);xj表示某一特征的全部样本的列向量;
x
j
i
表
示
样
本
空
间
中
x
(
i
,
j
)
的
数
据
x_{j}^i表示样本空间中x(i,j)的数据
xji表示样本空间中x(i,j)的数据
-
特征缩放问题
1)特征缩放事用来标准化数据特征的范围。针对多组特征,当其中几个特征变换范围很大时,进行梯度下降过程中产生的收敛轨迹效率会很低。
恰到好处的特征缩放可以使整个等高区间类似于圆形,加快收敛速度。
2)特征缩放方法
①、训练样本/样本最大值;
②、(训练样本–平均样本值)/ 样本范围;
缩放后的特征值不要求精确,但是不同特征值之间差距不应大,减少偏移程度。
1.3正规方程
来源于多元方程的极值处偏导数为0。
对于求解预测函数θ的数值,除了使用梯度下降方法,还可以使用标准方程(Normal equation)。
假设训练数据集有m个,特征有n个,即有m行数据集,n个列特征,得正规方程如下:
推导得出系数值的解:(偏导的推导过百度)
1.4两种方法区别
梯度下降的学习速率会越来越小,需要调整改变;且迭代次数过多;
正规方程不需要迭代,但是需要计算矩阵的逆,运算量大;
经验来说1万样本空间以内的数据可优先考虑正规方程解法,对于过多的训练集有梯度下降法。
1.5杂项
1.只要学习速率足够小,函数一定会收敛,但是迭代次数会增加。
2.正规方程一般均存在逆矩阵,但是当训练集个数m比特征n小时,可以考虑减少不必要的特征数量。
3.学习效率一般试探规律:0.001,0.003,0.01,0.03,0.1,0.3,1…
备注:学习资源来自网易微专业吴恩达老师的机器学习视频,以及其他大佬的总结,有错误请指正,谢谢。