1.多变量线性回归:
数据集解释不同::第i个训练样本(但这里已经是一个向量了)
第i个训练样本的第j的特征变量
定义=1
X=
=
所以
(‘的意思是转置)
2.使用梯度下降处理多变量线性回归,在特征很多的时候,效果比较好。但由于变量较多,需要特征缩放(Feature Scaling),,这样可以使得所有变量都在同范围内,收敛得更快。同时,还有均值归一化处理,与特征缩放同样的道理。
一般来说,u是变量均值(可以按照平均值处理),s是变量范围(最大值减去最小值)。
使用梯度下降处理多变量线性回归和单变量基本一致。
3.使用正规方程法处理多变量线性回归。以为例,求其导数零点,即可求出
。同理,推论到J,求其各位变量的偏导数为0,求得各位
.
这里有一个问题:的推导过程?(推导过程来啦)
使用正规方程法,适合特征比较少的情况,当n小于1万的时候,计算压力不会很大,但n越来越大时,计算会变得很慢。除此之外,正规方程法适用于线性回归,但是对很多其他算法并不是很适用。正规方程法不需要进行特征缩放。
4.不可以逆的原因通常有两个:一个是有冗余的特征,一个是因为样本数量远小于特征的数量。可以选择删除多余的特征,来化解这个问题。比如线性相关的特征之类。其中octave中prinv求解的是伪逆矩阵,不存在无法求逆的情况。
5.我们可以从不同的角度来选取定义特征,不用拘泥。可以用不同的多项式去拟合数据。
6.如何调节学习速率:绘制一个曲线,横坐标为迭代次数,纵坐标为J(误差函数),如果曲线下降的很合适,则认为学习速率选取的合适。学习速率不宜过大,过大会导致无法收敛,过小,收敛速率过慢。