最近,准备将机器学习再重新捋一遍,为了加强自己的记忆,将看到的内容重新总结记录。学习材料为 周志华 《机器学习》。
机器学习:
1 线性模型
1.1线性回归
1.2对数几率回归
1.3线性判别分析
1.4多分类学习
1.5类别不平衡问题
2 决策树
3 神经网络
4 支持向量机
5 贝叶斯分类器
6 集成学习
7 聚类
1 线性模型
给定一个含有个属性描述的示例
,线性回归试图学得一个通过属性的线性组合来进行预测的函数,即
一般用向量表示为:
1.1 线性回归
在写线性回归之前,先写一下我之前的一个疑问(蠢蠢的问题),以便和我一样有此疑惑的童鞋进行参考。
问题:回归和分类有什么区别?
答:回归输出的为实值,例如利用线性回归预测房价,预测考试分数等;而分类输出为离散值,例如利用分类估计房价是高还是低,考试分数及格还是不及格。
言归正传,介绍线性回归~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~我是分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
目的:
给定数据集
,其中每个
含有d个属性。线性回归(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。即试图学得:
,使得
![](https://i-blog.csdnimg.cn/blog_migrate/5ec5b8746941a4b68a658acb15a57558.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/4d804b2cb54f8260850d5727e3a1e9ab.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/55f119ed0a81cd23e8213684c5eaaf41.gif)
方法:
令![](https://i-blog.csdnimg.cn/blog_migrate/9b8f65daabdb5b037766fa783ae36e8b.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/93a823f890e9a7ba19c754ef9f1472fb.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/8994813b30995c829bcedba6e9d6693a.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/a0949a816f320e4ededefa93f3b146ce.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/0f2f922be3a79b9af5d40b2108281f88.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/0f2f922be3a79b9af5d40b2108281f88.gif)
利用数学上的知识,令
则可得到
的最优闭式解。此解的情况相对比较复杂,我们做一下简单的讨论:
![](https://i-blog.csdnimg.cn/blog_migrate/0f2f922be3a79b9af5d40b2108281f88.gif)
1)当
为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时,可得:
,
则最终得到的线性模型为
,其中
。
![](https://i-blog.csdnimg.cn/blog_migrate/81f9b0839a063d5d8464c9019cc98e88.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/780e063543368ec37f280c8f13b4946c.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/261e41205363f3780ede8de3b6207c32.gif)
2)当
不满足条件1)时,例如在许多任务中会遇到大量的变量,其数目甚至超过样例数,导致
的列数显然多于行数,
显然不满秩,此时可解出多了
,而选择哪一个解,将由学习算法的归纳偏好决定,常见的做法是引入正则化(regularization)项。
![](https://i-blog.csdnimg.cn/blog_migrate/81f9b0839a063d5d8464c9019cc98e88.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/6ccfb8223e34116d322e03800f676496.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/81f9b0839a063d5d8464c9019cc98e88.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/0f2f922be3a79b9af5d40b2108281f88.gif)
变形:
线性模型虽然简单,但有着丰富的变形。当我们希望预测值逼近真实标记![](https://i-blog.csdnimg.cn/blog_migrate/c592009395c2de830215c39f7bb6f97b.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/c592009395c2de830215c39f7bb6f97b.gif%3D%5Cmathbf%7Bw%7D%5E%7BT%7D%5Cmathbf%7Bx%7D+b)
那我们也可以令预测值逼近真实标记的衍生物。例如,我们令输出的预测值逼近
,则有对数线性回归(log-linear
![](https://i-blog.csdnimg.cn/blog_migrate/41a3260f240e5a227b2383ac95bd4779.gif)
regression),即:
![](https://i-blog.csdnimg.cn/blog_migrate/41a3260f240e5a227b2383ac95bd4779.gif%3D%5Cmathbf%7Bw%7D%5E%7BT%7D%5Cmathbf%7Bx%7D+b)
他实际上是让
逼近
,虽然式(1.1)在形式是线性的,但实际上已是在求取输入空间到输出空间的非线性映射了。
![](https://i-blog.csdnimg.cn/blog_migrate/85920da1010879e47883d89dd31ae71f.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/c592009395c2de830215c39f7bb6f97b.gif)
更一般的,考虑单调可微函数
,令:
![](https://i-blog.csdnimg.cn/blog_migrate/57c82a5f6fd1c31355257b8dc3b3a676.gif)
![](https://i-blog.csdnimg.cn/blog_migrate/c592009395c2de830215c39f7bb6f97b.gif%3Dg%5E%7B-1%7D%28%5Cmathbf%7Bw%7D%5E%7BT%7D%5Cmathbf%7Bx%7D+b%29)
这样的模型为广义线性模型(generalized linear model),函数
成为联系函数(link function)。
![](https://i-blog.csdnimg.cn/blog_migrate/57c82a5f6fd1c31355257b8dc3b3a676.gif)