机器学习关键点整理

最新推荐文章于 2022-02-05 18:02:08 发布

SumResort_YangHao

最新推荐文章于 2022-02-05 18:02:08 发布

阅读量584

点赞数

文章标签：机器学习算法统计学

本文链接：https://blog.csdn.net/SumResort_LChaowei/article/details/78675184

版权

1.逻辑回归和线性回归：

线性回归XXt可能不可逆，但是正则化后加一个矩阵变成可逆的了

2.pca和svd:

https://www.zhihu.com/question/38319536

3.为什么要用最小二乘法：

在做线性回归的时候，为什么理想的直线，是离每个点的距离的平方和最小，而不能是这条直线离每个点的距离的绝对值之和最小？
换言之，我是否可以用这样的直线，它使得每个点到直线的距离之和最小。

我们先看如何评估线性回归的好坏：
假设现在有这样的样本：

&amp;lt;img src="https://i-blog.csdnimg.cn/blog_migrate/05a153e1c5124f00539e8ac22006588f.png" data-rawwidth="276" data-rawheight="271" class="content_image" width="276"&amp;gt;现在我们需要拟合一条直线出来，理论上，用不同的方法，我们可以拟合各路的直线，假设像这样：
&amp;lt;img src="https://i-blog.csdnimg.cn/blog_migrate/dbe85b2e8f8ede1fe96bf95ae99a9dcb.png" data-rawwidth="276" data-rawheight="271" class="content_image" width="276"&amp;gt;假如现在我们可以拟合上面三条不同的直线，应该如何评估哪条直线最为准确？可以这样想，假如我再加一个点上去，新加的这个点离哪条直线最近的概率最大，哪条直线就是最优的。譬如我现在添上一万个点，发现有9000个点都离蓝色的那条线最近，而只有1000个点不是离它最近，那我们可以就可以说蓝色的这条线是最优的。

基于这样的理解再来看题目的问题，能不能选一条直线，它使得每个点到直线的距离之和最小？
我的理解是，采用何种方法拟合取决于样本的噪声（对直线的偏移）符合何种分布。
假设噪声服从高斯分布，这时最大似然就和最小二乘法等价，原因如下：
高斯分布：
$f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right)$

噪声服从高斯分布的意思就是说，样本取值的期望 u 落在我们将要拟合的直线上，但是大自然会给它一个偏差，这个偏差的多少，则服从上式分布，譬如偏差在两个标准差内的概率是95.449974%。
这里的每一个样本都独立同分布，于是他们的联合概率应该满足：
$\ p_{X,Y}(x,y) = p_X(x) \cdot p_Y(y)$

累乘的结果就是

$\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu1)^2}{2\sigma^2} \right) \cdot \frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu2)^2}{2\sigma^2} \right) ...$

后面的乘项省略。。
然后，这些exp相乘的话就是指数相加，指数部分就变为：

$\left( -\frac{(x- \mu1)^2}{2\sigma^2} \right) + \left( -\frac{(x- \mu2)^2}{2\sigma^2} \right) + ...$

下面的分母提出来，就成了：

$-[(x- \mu1)^2 +(x- \mu2)^2 +(x- \mu3)^2 ... ]$

这已经就是最小二乘的样子了，上面的期望 $\mu1$ ， $\mu2$ 便是直线上的理想预测结果，x便是实际的结果。最小二乘法是要求平方和尽可能小，上式前面加上了负号，也就是上式尽可能大，上式是一个指数，指数越大，便是联合概率越大，联合概率越大，便表示，样本的落点越有可能贴近拟合的直线。这样便符合我们一开始讨论的理解。