#机器学习笔记01#多变量线性回归

最新推荐文章于 2022-08-07 10:00:00 发布

Fogjio

最新推荐文章于 2022-08-07 10:00:00 发布

阅读量290

点赞数

分类专栏：机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41745620/article/details/83686382

版权

机器学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1多变量线性回归

1.1 回顾单变量线性回归

训练集提出：
Training set of housing prise 以房屋价格为例

Size in feet(x)	Price in 1000’s (y)
2104	460
1416	232
1532	315
852	178
…	…

假设函数Hypothesis
$h_{\Theta }(x) = \Theta _{0 } + \Theta _{1}x$
代价函数 cost function
平方误差和函数：
$J(\Theta _{0},\Theta _{1}) = minmize \frac{1}{2m}\sum\left ( h_{\Theta } (x^{i}) - y_{i} \right )^{2}$
梯度下降
Want min J(theat 0 , theat 1 );
$\Theta _{j} := \Theta _{j}- \alpha \frac{\partial J\left ( \Theta _{0},\Theta _{1} \right )}{\partial \Theta _{j}}$
其中α表示步长，每次前进梯度的权重；每次对θi进行负梯度方向的更新，一旦对应的代价函数取值足够小则认为找到局部最小值。
并且
$temp0 := \Theta _{0}- \alpha \frac{\partial J\left ( \Theta _{0},\Theta _{1} \right )}{\partial \Theta _{0}}$
$temp1 := \Theta _{1}- \alpha \frac{\partial J\left ( \Theta _{0},\Theta _{1} \right )}{\partial \Theta _{1}}$
此处需要同步更新θ参数。
梯度下降结合线性回归,求导计算结果如下
$\Theta _{0}:= \Theta _{0}- \alpha \frac{1}{m}\sum (h_{\Theta }(x^{i})-y^{i})$
$\Theta _{1}:= \Theta _{1}- \alpha \frac{1}{m}\sum (h_{\Theta }(x^{i})-y^{i})\cdot x^{i}$

1.2多元梯度下降问题

预测函数
多变量预测函数
$h_{\Theta }(x) = \Theta _{0 }x_{0} + \Theta _{1}x_{1}+\Theta _{2}x_{2}+...\Theta _{n}x_{n}$
方便起见x0均为1；
多特征
从多个参数回归分析模型，如房屋价格训练集如下：

面积	房间数量	楼层	房龄	价格
2104	5	1	45	460
1464	3	2	40	232
…	…	…	…	…
1534	2	1	36	315

$x^i 表示一个包含所有特征的列向量（i = 0,1,...n）;x_{j}表示某一特征的全部样本的列向量;$
$x_{j}^i表示样本空间中x（i，j）的数据$

代价函数cost function
$J(\Theta _{0},\Theta _{1}...\Theta _{n}) = \frac{1}{2m}\sum\left ( h_{\Theta } (x^{i}) - y_{i} \right )^{2}$
梯度下降计算
$\Theta _{j}:= \Theta _{j}- \alpha \frac{1}{m}\sum (h_{\Theta }(x^{i})-y^{i})\cdot x^{i}_{j} (j = 0,1,2...n)$
特征缩放问题
1）特征缩放事用来标准化数据特征的范围。针对多组特征，当其中几个特征变换范围很大时，进行梯度下降过程中产生的收敛轨迹效率会很低。

恰到好处的特征缩放可以使整个等高区间类似于圆形，加快收敛速度。
2）特征缩放方法
①、训练样本/样本最大值；
②、(训练样本–平均样本值）/ 样本范围；
缩放后的特征值不要求精确，但是不同特征值之间差距不应大，减少偏移程度。

1.3正规方程

来源于多元方程的极值处偏导数为0。
对于求解预测函数θ的数值，除了使用梯度下降方法，还可以使用标准方程（Normal equation）。
假设训练数据集有m个，特征有n个，即有m行数据集，n个列特征，得正规方程如下：
$X = \begin{bmatrix} x_{0}^{T}\\ x_{1}^{T}\\ x_{2}^{T}\\ ...\\ x_{m}^{T}\\ \end{bmatrix} = \begin{bmatrix} 1& x_{1}^{1} & x_{2}^{1} & ... & x_{n}^{1}\\ 1& x_{1}^{2} & x_{2}^{2} & ... & x_{n}^{2}\\ 1& x_{1}^{3} & x_{2}^{3} & ... & x_{n}^{3}\\ ...& ... & ... & ... &...\\ 1 & x_{1}^{m} & x_{2}^{m} & ...& x_{n}^{m} & \end{bmatrix}_{m*n+1}$
$\Theta = \begin{bmatrix} \Theta _{0}\\ \Theta _{1}\\ \Theta _{2}\\ ...\\ \Theta _{n} \end{bmatrix}_{n+1*1}$
$Y = \begin{bmatrix} y _{0}\\ y _{1}\\ y _{2}\\ ...\\ y _{n} \end{bmatrix}_{n+1*1}$
推导得出系数值的解：（偏导的推导过百度）
$\Theta = (X^{T}X)^{-1}X^{T}Y$

1.4两种方法区别

梯度下降的学习速率会越来越小，需要调整改变；且迭代次数过多；
正规方程不需要迭代，但是需要计算矩阵的逆，运算量大；
经验来说1万样本空间以内的数据可优先考虑正规方程解法，对于过多的训练集有梯度下降法。

1.5杂项

1.只要学习速率足够小，函数一定会收敛，但是迭代次数会增加。
2.正规方程一般均存在逆矩阵，但是当训练集个数m比特征n小时，可以考虑减少不必要的特征数量。
3.学习效率一般试探规律：0.001，0.003，0.01，0.03，0.1，0.3，1…

备注:学习资源来自网易微专业吴恩达老师的机器学习视频，以及其他大佬的总结，有错误请指正，谢谢。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#机器学习笔记01#多变量线性回归

多变量线性回归回顾1提出问题1.1 回顾单变量线性回归训练集提出：Training set of housing priseSize in feet(x)Price in 1000’s (y)210446014162321532315852178……假设函数Hypothesis代价函数 cost function平...
复制链接

扫一扫

专栏目录

Fogjio CSDN认证博客专家 CSDN认证企业博客

码龄6年

16: 原创

59万+: 周排名

49万+: 总排名

1万+: 访问

: 等级

290: 积分

3: 粉丝

16: 获赞

7: 评论

66: 收藏

私信

关注

热门文章

分类专栏

最新评论

#图像处理_OpenCV# Harris角点检测原理及C++实现
LoveLiz4Ever: 刚才在前面进行角点检测的时候每一个像素点都有一个数值，数值大小反映当前位置是角点的可能性大小，这段应该是遍历图像中的所有像素点，按照滑块所指示的数值作为筛选阈值，调节最后结果中显示的角点数量。另外这边是通过变化指针的方式遍历图像的。
#图像处理_OpenCV# Harris角点检测原理及C++实现
Xiangea: 这一段代码实在干什么 [code=cpp] for (int row = 0; row < resultImg.rows; row++) { //定义每一行的指针 uchar* currentRow = normScaleDst.ptr(row); for (int col = 0; col < resultImg.cols; col++) { int value = (int)*currentRow; if (value > thresh) { circle(resultImg, Point(col, row), 2, Scalar(0, 0, 255), 2, 8, 0); } currentRow++; } } ———————————————— 版权声明：本文为CSDN博主「Fogjio」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/weixin_41745620/article/details/83618875 [/code]
#图像处理_OpenCV# Harris角点检测原理及C++实现
Xiangea: 为什么要创建滑块啊
直观理解GAN公式含义，直击灵魂
ctotalk: 学习了
#图像处理_OpenCV# Harris角点检测原理及C++实现
z_alien: 感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。