<机器学习>(周志华)读书笔记 -- 第三章 线性模型

3.1 基本形式


为啥叫做线性模型呢?因为这个很像是f(x)=ax+b的形式,在图形上看是一个直线,只是斜率和截距不一样而已。

3.2 线性回归


这个就有意思了,这里x是给的数值,f(x)是预测值,w,b是变量,那么变量的更新就是个大问题,其实神经网络在这里也是面临了这个问题,就是变量的更新。这里先是放置了一个w,b的更新的大致方向,就是使得预测和真实值接近嘛。然后化简一步利于后面的求导。基本的方法就是求导,然后更新参数。

在这里,我们是要找到 参数w,b的最优值,这样就需要一个衡量指标来说明w,b的寻找方向,如果没有方向随便找岂不是失去了意义。在这里就需要引入一个衡量的方法,在第二章里面讲过一种均方误差是回归任务中常用于性能度量,我们可以把寻找w。b的方向设置为使得均方误差最小。即:


均方误差也被称为是欧氏距离,其实就是两点之间的距离。如果看成是平面两点,不就是横坐标差的平方和纵坐标差的平方嘛!

 在寻找最优化的过程中,我们一直想找到一个方法,相信像我一样的高数学渣只有一个想法就是求导数为零的极值点。所以先求个导数:


在这里,是把f(x)下yi-wx代入了,然后    刚才的最小二乘法的公司进行求导,然后令两个式子为零,然后可以化简出来w,b的最优解。


这里的输入如果样本有多个属性的时候,就被称为“多元线性回归”但是面临的计算就是矩阵计算,这个就是个问题了。


在这里,把wx+b的形式进行了转化,转换为了一个单纯的矩阵的运算,然后得到结果。

这里不得不说的是|AA^T| = |A| |A^T| = |A||A| = |A|^2 其实也是计算了一个欧氏距离,和上面的公式没矛盾,但是这里的w*实际上就是吧上面的w和b进行了拼合,这样的感觉就是好像更省事了,因为最后的一列元素恒为1,所以这里的b是b乘上系数1,并没有变化。这里换成矩阵,好像是符号更加花哨了,但是实际上还是原来的算式引入,延展的,并没有什么变化。


3.10就是对  3.9进行了一个线性变换得到的,然后解得:


这样得到的回归模型是:


3.3 对数几率回归

当考虑到任务是二分类的问题的时候,常常会遇到的一个问题是预测出来的是个连续值,而我们要的是个离散值。

这个时候就用到了替代函数。


这个Sigmoid函数优点有:1,是个连续函数。2,能够快速的区分出来两个值。

此时的公式可以看为:


将我们的函数代入,可以得到:


如果是对数据进行了ln变换,用来搞一个非线性映射的话那就是:


其实,在这里就是对公式左边取ln而已,不是两边同时取的,之前因为这个化简老半天,才发现是自己不仔细啊。

这里正好是对立事件y|1-y的概率之比,则公式又可以化简为:


然后得到了下式:


然后根据极大似然法对概率回归模型进行对数似然:


再将b合并进入参数矩阵。然后可以得到:



 下面即将是一个大坑~~~:


嗯,这里貌似不好推导出来啊,然后无奈之下,上网找到了这个~:

 

来源:http://www.cnblogs.com/zhusleep/p/5615874.html#3569825

迈过这个门槛就好多了

接下来无非就是迭代求导,更新嘛。



3.4线性判别分析
先放上一个图:

这里  -  +是两个类,找一个角度,进行一个投影,然后他们的 影子 就落到了同一个平面上。俗话说,物以类聚嘛,哪里有一堆,就是那里有一类。然后,为了让这个类别更加的清晰, 肯定是要让同一类的在一起,离得比较近,而不同类的离得远远的。
出于这个目的,设计一个算法来实现嘛。首先是引入对数据的定义:
为了达到刚才说的目的,一下的文字就不难理解了:
 
在这里,这个公式虽然容易理解,但是不好化简啊!于是乎,先定义两个函数:

这样,刚才那个式子就可以写成:

这样一来,就又是一个计算w的问题了,为了方便,我们可以让分母为1,这样只优化分子就可以了,即:

然后就是一个计算过程的问题了:



  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值