<机器学习>(周志华)读书笔记 -- 第三章线性模型

最新推荐文章于 2023-08-31 15:06:42 发布

ANONYMOUSLYCN

最新推荐文章于 2023-08-31 15:06:42 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习读书文章标签：读书笔记周志华机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/geng333abc/article/details/55806272

版权

机器学习读书专栏收录该内容

6 篇文章 0 订阅

订阅专栏

3.1 基本形式

为啥叫做线性模型呢？因为这个很像是f（x）=ax+b的形式，在图形上看是一个直线，只是斜率和截距不一样而已。

3.2 线性回归

这个就有意思了，这里x是给的数值，f(x)是预测值，w，b是变量，那么变量的更新就是个大问题，其实神经网络在这里也是面临了这个问题，就是变量的更新。这里先是放置了一个w，b的更新的大致方向，就是使得预测和真实值接近嘛。然后化简一步利于后面的求导。基本的方法就是求导，然后更新参数。

在这里，我们是要找到参数w，b的最优值，这样就需要一个衡量指标来说明w，b的寻找方向，如果没有方向随便找岂不是失去了意义。在这里就需要引入一个衡量的方法，在第二章里面讲过一种均方误差是回归任务中常用于性能度量，我们可以把寻找w。b的方向设置为使得均方误差最小。即：

均方误差也被称为是欧氏距离，其实就是两点之间的距离。如果看成是平面两点，不就是横坐标差的平方和纵坐标差的平方嘛！

在寻找最优化的过程中，我们一直想找到一个方法，相信像我一样的高数学渣只有一个想法就是求导数为零的极值点。所以先求个导数：

在这里，是把f（x）下yi-wx代入了，然后刚才的最小二乘法的公司进行求导，然后令两个式子为零，然后可以化简出来w，b的最优解。

这里的输入如果样本有多个属性的时候，就被称为“多元线性回归”但是面临的计算就是矩阵计算，这个就是个问题了。

在这里，把wx+b的形式进行了转化，转换为了一个单纯的矩阵的运算，然后得到结果。

这里不得不说的是|AA^T| = |A| |A^T| = |A||A| = |A|^2 其实也是计算了一个欧氏距离，和上面的公式没矛盾，但是这里的w*实际上就是吧上面的w和b进行了拼合，这样的感觉就是好像更省事了，因为最后的一列元素恒为1，所以这里的b是b乘上系数1，并没有变化。这里换成矩阵，好像是符号更加花哨了，但是实际上还是原来的算式引入，延展的，并没有什么变化。

3.10就是对 3.9进行了一个线性变换得到的，然后解得：

这样得到的回归模型是：

3.3 对数几率回归

当考虑到任务是二分类的问题的时候，常常会遇到的一个问题是预测出来的是个连续值，而我们要的是个离散值。

这个时候就用到了替代函数。

这个Sigmoid函数优点有：1，是个连续函数。2，能够快速的区分出来两个值。

此时的公式可以看为：

将我们的函数代入，可以得到：

如果是对数据进行了ln变换，用来搞一个非线性映射的话那就是：

其实，在这里就是对公式左边取ln而已，不是两边同时取的，之前因为这个化简老半天，才发现是自己不仔细啊。

这里正好是对立事件y|1-y的概率之比，则公式又可以化简为：

然后得到了下式：

然后根据极大似然法对概率回归模型进行对数似然：

再将b合并进入参数矩阵。然后可以得到：

下面即将是一个大坑~~~：

嗯，这里貌似不好推导出来啊，然后无奈之下，上网找到了这个~：

来源：http://www.cnblogs.com/zhusleep/p/5615874.html#3569825

迈过这个门槛就好多了

接下来无非就是迭代求导，更新嘛。

3.4线性判别分析

先放上一个图：

这里 - +是两个类，找一个角度，进行一个投影，然后他们的影子就落到了同一个平面上。俗话说，物以类聚嘛，哪里有一堆，就是那里有一类。然后，为了让这个类别更加的清晰，肯定是要让同一类的在一起，离得比较近，而不同类的离得远远的。

出于这个目的，设计一个算法来实现嘛。首先是引入对数据的定义：

为了达到刚才说的目的，一下的文字就不难理解了：

在这里，这个公式虽然容易理解，但是不好化简啊！于是乎，先定义两个函数：

这样，刚才那个式子就可以写成：

这样一来，就又是一个计算w的问题了，为了方便，我们可以让分母为1，这样只优化分子就可以了，即：

然后就是一个计算过程的问题了：

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
<机器学习>(周志华)读书笔记 -- 第三章线性模型

3.1 基本形式为啥叫做线性模型呢？因为这个很像是f（x）=ax+b的形式，在图形上看是一个直线，只是斜率和截距不一样而已。3.2 线性回归这个就有意思了，这里x是给的数值，f(x)是预测值，w，b是变量，那么变量的更新就是个大问题，其实神经网络在这里也是面临了这个问题，就是变量的更新。这里先是放置了一个w，b的更新的大致方向，就是使得预测和真实值接近嘛。然后化简一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。