机器学习笔记——线性回归（linear regression）

最新推荐文章于 2024-03-01 16:42:40 发布

Veropatrinica

最新推荐文章于 2024-03-01 16:42:40 发布

阅读量375

点赞数

分类专栏：机器学习文章标签：机器学习线性回归代价函数梯度下降正规方程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shanwenkang/article/details/84875604

版权

机器学习专栏收录该内容

12 篇文章 2 订阅

订阅专栏

相关术语

监督学习（supervised learning）：数据集存在“正确答案”，算法目的是给出更多“正确答案”

无监督学习（unsupervised learning）：也叫聚类算法，数据集不存在“正确答案”，算法目的是将现有数据集进行分类并判断新的数据属于哪一类

回归（regression）：预测值是连续出现的（例如房价）

分类（classification）：预测值是离散的（0或1或存在更多分类）

单变量线性回归

利用直线对数据进行拟合，借此来预测新的输出值

代价函数（cost function）

代价函数是数据集中的值与假设函数（hypothesis）的预测值的差的平方和。我们用这个参数来表示假设函数对原数据集的拟合程度，代价函数约低表示拟合程度越好

对于一个参数的情况，如果我们将代价函数随参数的变化画出来，那么将是一条线，如果参数变为两个，那么代价函数是一个面。对于线性回归的情况，我们可以证明代价函数是凸函数，即只有一个极值点，也是最小值点。这个最小值代表的是对数据集拟合最好的假设函数

梯度下降（gradient descent）

当我们有了代价函数之后，如何寻找到这个最小值点呢，一种方法就是梯度下降。梯度下降就是不断改变参数，增量为方向导数的反方向，之后不断迭代直到算法收敛

我们从直观上来看就是代价函数不断从大的值向低的值衍进。需要注意的是学习速率α值必须合适，太小会导致算法收敛缓慢，太大会导致算法收敛失败，甚至发散

正是由于代价函数的梯度随着趋向于极值点会越来越小，参数值的改变量也随着趋向于极值点越来越小。当改变量小于某个值时我们也就判断算法收敛了

当我们将梯度下降算法应用到线性回归上时可以得到如下结果

多变量线性回归

当因变量与多个自变量相关时，我们称其为多变量线性回归

我们也可以把假设函数写成矩阵形式

我们也可以对多变量的情况应用梯度下降法

特征缩放

在多变量的情况下我们需要让不同的变量处在相似的规模上，否则可能会使得算法收敛缓慢

学习速率

我们之前说到学习速率α太大太小都不合适，那我们应该如何选择学习速率的值呢？最好的方法就是将代价函数随迭代次数的变化画出来，不断调整学习速率的值来找到一个较快的收敛方案。一个很好的调整方案是从最小的学习速率开始不断将其乘3，例如..->0.001->0.003->0.01->0.03->0.1->0.3->1->..

多项式回归

很多时候我们用线性回归无法很好的拟合数据，这时候多项式回归提供给我们更多的选择。我们可以采用更高次幂的项来使直线变为曲线。对于多项式回归的分析与线性回归差不多，我们只需要将高次幂项看做一个新的变量，然后将其看做多变量线性回归就可以了

正规方程（normal equation）

除了我们之前讲的梯度下降法，我们还可以用正规方程来求代价函数的最小值，方法就是另代价函数的全部偏导数等于0，求出的θ的值就是我们所需的值

我们可以从代数的角度证明，当θ（θ是一个向量）等于下面这个式子时，代价函数取得最小值

我们可以将梯度下降法与正规方程法做一个对比可以知道当变量比较多时梯度下降也有很好的性能，而正规方程法更适用于边聊较少的情况

不可逆情况

我们注意到求θ的时候有个求逆矩阵的操作，那么当矩阵不可逆的时候应该怎么办呢？矩阵不可逆主要由一下两种原因导致，一是变量之间存在冗余，二是特征的数量比数据集的训练例数量还多。当然不可逆情况出现的可能很小，就算存在，我们也可以通过matlab中pinv函数求矩阵的伪逆来得到正确的结果。至于伪逆是什么，以及为什么采取伪逆也能得到正确结果就不在这介绍了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记——线性回归（linear regression）

相关术语监督学习（supervised learning）：数据集存在“正确答案”，算法目的是给出更多“正确答案”无监督学习（unsupervised learning）：也叫聚类算法，数据集不存在“正确答案”，算法目的是将现有数据集进行分类并判断新的数据属于哪一类回归（regression）：预测值是连续出现的（例如房价）分类（classification）：预测值是离散的（0或...
复制链接

扫一扫

专栏目录

Veropatrinica CSDN认证博客专家 CSDN认证企业博客

码龄7年

91: 原创

2万+: 周排名

90万+: 总排名

26万+: 访问

: 等级

3349: 积分

2095: 粉丝

217: 获赞

88: 评论

1072: 收藏

私信

关注

热门文章

分类专栏

笔记 1篇
三维重建 1篇
图神经网络 1篇
Unity3D 8篇
Reading Notes 4篇
OJ 32篇
VR 5篇
CUDA 6篇
图像处理 12篇
机器学习 12篇
CNN 14篇
环境配置 2篇
杂 3篇

最新评论

快速理解图神经网络（GCN）
嵩哥迷弟: Out[6]还差一行[2, -2]没写出来
数字图像处理笔记——酉变换（ Unitary image transforms）
Орехов: DFT变换的系数矩阵A应该是正交矩阵，而不是酉矩阵吧，验证代码如下 [code=plain] H = 10; [k, n] = meshgrid(0:H-1); A = exp(-1i*2*pi*u.*x/H); % DFT变换的系数矩阵A E = A * A'; % A*A'的结果是对角矩阵，说明A是正交矩阵 not_E = A * conj(A'); % A*conj(A')的结果不是对角矩阵，说明A不是酉矩阵 [/code]
简单实例理解Unity世界坐标和局部坐标下四元数旋转（四元数乘法）
云上空: 四元数乘法旋转的本质是旋转的连续应用。当你执行p * q时，可以理解为首先应用四元数p的旋转，然后再应用四元数q的旋转。因此transform.rotation=transform.roation*quaterion可以解析如下: transform.rotation表示应用自身的旋转（也可以理解为将物体从默认旋转应用到transform.rotation），然后应用Quaternion旋转（也可以说是向自己施加quaterion旋转，一个意思），因此结果就是绕本地轴旋转了quaternion. 而transform.rotation=Quaternion*transform.rotation; 可以理解为对空间应用Quaternion旋转，对空间进行旋转也就是对空间坐标系的基进行旋转。也就是将整个空间朝某个方向旋转，然后在旋转后的空间中再应用transform.rotaion，因此就是绕世界轴进行了旋转。作为子物体时的四元数旋转：物体的localRotation其实就等于先应用父物体旋转，再应用本地旋转，也就是：transform.rotation = transform.parent.transform.rotation * transform.localRotation。但是我这里不打算通过这个来推断之后的局部旋转和全局旋转的异同关系。因为局部旋转的计算本质上依然是旋转的连续应用。局部坐标时,localRotation=loaclRotation*q和世界坐标的原理一样，也是先应用自身旋转然后应用q的旋转。结果便是绕自身坐标系旋转。而使用transform.localRotation=q*transform.localRotation也和之前一样。还是先对坐标系进行旋转，只不过这里旋转的是局部坐标系，然后再应用自身旋转，也就是自身绕着局部坐标系中的q进行了旋转。和世界坐标中的旋转原理一样，但是坐标系不同，结果自然不同。
Unity开发——Hololens2+Vuforia实现图像识别详细教程
Yxyrwx: 我运行之后不会出现在hololens中不会vuforia菜单，并且模型只会显示在一个浏览框里，不像官方给的例子那种可以在任意角度都能识别出来，这应该咋解决
Unity开发——Hololens2+Vuforia实现图像识别详细教程
东瓶儿: 详细厉害

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。