机器学习关键点整理

1.逻辑回归和线性回归:

 

 

线性回归XXt可能不可逆,但是正则化后加一个矩阵变成可逆的了

 

2.pca和svd:

https://www.zhihu.com/question/38319536
 

 

3.为什么要用最小二乘法:

 

 

在做线性回归的时候,为什么理想的直线,是离每个点的距离的平方和最小,而不能是这条直线离每个点的距离的绝对值之和最小?
换言之,我是否可以用这样的直线,它使得每个点到直线的距离之和最小。

我们先看如何评估线性回归的好坏:
假设现在有这样的样本:

<img src="https://i-blog.csdnimg.cn/blog_migrate/05a153e1c5124f00539e8ac22006588f.png" data-rawwidth="276" data-rawheight="271" class="content_image" width="276">现在我们需要拟合一条直线出来,理论上,用不同的方法,我们可以拟合各路的直线,假设像这样:
<img src="https://i-blog.csdnimg.cn/blog_migrate/dbe85b2e8f8ede1fe96bf95ae99a9dcb.png" data-rawwidth="276" data-rawheight="271" class="content_image" width="276">假如现在我们可以拟合上面三条不同的直线,应该如何评估哪条直线最为准确?可以这样想,假如我再加一个点上去,新加的这个点离哪条直线最近的概率最大,哪条直线就是最优的。譬如我现在添上一万个点,发现有9000个点都离蓝色的那条线最近,而只有1000个点不是离它最近,那我们可以就可以说蓝色的这条线是最优的。

 

基于这样的理解再来看题目的问题,能不能选一条直线,它使得每个点到直线的距离之和最小?
我的理解是,采用何种方法拟合取决于样本的噪声(对直线的偏移)符合何种分布。
假设噪声服从高斯分布,这时最大似然就和最小二乘法等价,原因如下:
高斯分布:
f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right)

噪声服从高斯分布的意思就是说,样本取值的期望 u 落在我们将要拟合的直线上,但是大自然会给它一个偏差,这个偏差的多少,则服从上式分布,譬如偏差在两个标准差内的概率是95.449974%。
这里的每一个样本都独立同分布,于是他们的联合概率应该满足:
\ p_{X,Y}(x,y) = p_X(x) \cdot p_Y(y)

累乘的结果就是

\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu1)^2}{2\sigma^2} \right) \cdot \frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu2)^2}{2\sigma^2} \right) ...

后面的乘项省略。。
然后,这些exp相乘的话就是指数相加,指数部分就变为:

\left( -\frac{(x- \mu1)^2}{2\sigma^2} \right) +  \left( -\frac{(x- \mu2)^2}{2\sigma^2} \right) + ...

下面的分母提出来,就成了:

-[(x- \mu1)^2 +(x- \mu2)^2 +(x- \mu3)^2 ... ]

这已经就是最小二乘的样子了,上面的期望\mu1\mu2便是直线上的理想预测结果,x便是实际的结果。最小二乘法是要求平方和尽可能小,上式前面加上了负号,也就是上式尽可能大,上式是一个指数,指数越大,便是联合概率越大,联合概率越大,便表示,样本的落点越有可能贴近拟合的直线。这样便符合我们一开始讨论的理解。

若噪声服从拉普拉斯分布呢?
此时的概率分布就成了这样:
f(x|\mu,b) = \frac{1}{2b} \exp \left( -\frac{|x-\mu|}{b} \right) \,\!

可以看到这里的指数不再是平方,而是绝对值,也就符合了题目说的情况,选一条直线,它使得每个点到直线的距离之和最小。
用同样的办法可以得出,若噪声服从拉普拉斯分布,那拟合出一条直线,它满足到各点距离之和最小,那对于新样本的预测就最有可能靠近这样的一条直线。

所以结论就是,采用何种方法拟合取决于样本的噪声被假定为何种分布,而在自然情况下该噪声服从高斯分布,所以这时做线性回归应该用最小二乘法。

4.先验概率和后验概率:
https://www.douban.com/note/479501378/

5.判别模型 和生成模型:

https://www.zhihu.com/question/20446337

5.NP,NPCNP-HARD:

http://www.matrix67.com/blog/archives/105

6.mcmc:

http://blog.csdn.net/scythe666/article/details/79410432

7.核密度估计:

https://www.zhihu.com/question/27301358

8.方差偏差均衡:

http://blog.csdn.net/chaoshengmingyue/article/details/50786445

9.EM通俗易懂:

https://www.jianshu.com/p/1121509ac1dc

10.MCMC:

http://www.dataguru.cn/article-12781-1.html

https://zhuanlan.zhihu.com/p/30003899?utm_medium=social&utm_source=wechat_session

11.Fisher 线性判别:

http://blog.csdn.net/Angel_Yuaner/article/details/48048871

12.Softmax回归:

https://www.cnblogs.com/Rambler1995/p/5467071.html

13:拉普拉斯近似和贝叶斯logistic:

http://blog.csdn.net/iothouzhuo/article/details/50606306

14:甲壳比矩阵:

http://jacoxu.com/jacobian%E7%9F%A9%E9%98%B5%E5%92%8Chessian%E7%9F%A9%E9%98%B5/

15.kkt

http://www.hanlongfei.com/convex/2015/11/08/kkt/

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值