![a30175e22f5e21861011abe42f59f02a.png](https://i-blog.csdnimg.cn/blog_migrate/abf5301157245cf7b53eba2ea320855d.jpeg)
学习视频:
李航老师的《统计学习方法》带读/机器学习/ AIke.qq.com目录:
一、感知机
二、k近邻法
三、朴素贝叶斯法
四、决策树
五、逻辑斯蒂回归模型
六、最大熵模型
七、支持向量机
八、提升方法
九、隐马尔可夫模型
十、条件随机场
内容:
一、感知机
1、核心思想
感知机是解决二分类问题的,核心思想是:寻找这样一个超平面:这个超平面将正负样本分开,并且使得误分类点到超平面的距离最小,直到没有误分类的点。
2、模型
感知机的数学模型是:线性模型外加符号函数,亦即需要寻找的超平面
![b99ad3c6eef48f755829d46321eff47b.png](https://i-blog.csdnimg.cn/blog_migrate/de9c3dbda5aeaaf2b5fbb5ba47e35f16.png)
3、策略
根据核心思想写成数学问题就是:
![3b2e849cb4dceb2d8703c28948de43af.png](https://i-blog.csdnimg.cn/blog_migrate/a101e43fb666e1136bd0bd492474536d.png)
4、算法
有了模型和策略,我们的最终目的是求出最优的w和b,以确定模型,这里可以采用随机梯度下降法来求解
二、k近邻法
1、核心思想
k近邻法可以解决多分类问题。核心思想是:用待预测样本与所有样本求距离,取出topK个最近邻的样本,在这topK个最近邻的样本中,分类最多的种类即为待预测样本的分类。
2、模型:待预测样本与所有样本的距离
![724518fbdbe8eb16b6011d6cce01cbcb.png](https://i-blog.csdnimg.cn/blog_migrate/861c76ff638c418497b437aff1d20696.png)
3、策略
前K最近距离的样本分类最多的分类:
![f7e78e2181771d20ceb7e8966a4d3d84.png](https://i-blog.csdnimg.cn/blog_migrate/b7ab42f1dce1c26ae3a185c2d248bf65.jpeg)
4、算法
构造kd树,利用kd树搜索的方法
三、朴素贝叶斯法
1、核心思想
朴素贝叶斯法可以解决多分类问题。是典型的生成模型。核心思想是:通过样本求出P(Y)的概率,以及条件概率P(x|Y),从而可以求出P(X,Y),求出P(y|X)的概率,对于所有的Y,P(y|X)最大的y即X的分类
2、模型
![594f46da1810d2ac8a90e6d859d0befe.png](https://i-blog.csdnimg.cn/blog_migrate/4b4563df7fc3a2a8d375be46aa7e8268.png)
其中P(X=x|Y=ck)做独立性假设,使得P(X=x|Y=ck)可以简化为:
![7ee7558cce800070fddf4c0496f1ad9d.png](https://i-blog.csdnimg.cn/blog_migrate/d56fc7cdfaa928298749d26d657b8922.png)
3、策略
![6b37d8b4c2e83e3399d3155264eaf255.png](https://i-blog.csdnimg.cn/blog_migrate/435b1c3a782600c8b1554a5447a20f4a.jpeg)
4、算法
极大似然估计
四、决策树
1、核心思想:
决策树可以解决分类问题也可以解决回归问题,其基本思想是:根据样本构造一棵逻辑树,对于待预测样本,根据已构造的树寻找答案。
决策树的学习包括特征选择、决策树的生成和决策树的剪枝三个过程。这三个过程选取不同的方法就形成不同的算法。
2、不同决策树算法的区别
a)ID3:通过信息增益选择特征
b)C4.5:通过信息增益比来选择特征
c)CART:是二叉树,可以是回归树也可以是分类数,对于回归树用平方误最小化准则来选择特征,生成二叉树,对于分类数用基尼指数最小化准则来选择特征,生成二叉树
五、逻辑斯蒂回归模型
1、核心思想
逻辑斯蒂回归模型是解决分类问题的,可以解决二分类问题也可以解决多分类问题。其核心思想是:线性回归外加逻辑斯蒂分布函数,求出X条件下Y的概率,如果概率大于阈值,就认为X属于该分类。
2、模型
二分类问题:
![7bd0c8f9e432947a339a181c31bf3aa8.png](https://i-blog.csdnimg.cn/blog_migrate/e064a62eb4d4a7a7b5a75cc71316de1b.png)
多分类问题
![f61617bc90e55084d622c24fccd421a6.png](https://i-blog.csdnimg.cn/blog_migrate/9b9e0392d07c467303371e77f7058477.png)
3、策略和算法
逻辑斯蒂损失最小,构建对数似然函数,用极大似然估计法估计模型的参数
六、最大熵模型
1、核心思想
最大熵模型也可以解决多分类问题。其核心思想是:在满足所有约束条件下,条件熵最大的模型为最优的模型。
2、模型
![21d1e53d21a4a4bea00f45833b828655.png](https://i-blog.csdnimg.cn/blog_migrate/6959446302c339730b735b797c4ee7df.png)
3、算法
逻辑斯蒂回归模型和最大熵模型都可以采用:极大似然估计、牛顿法、拟牛顿法、改进的迭代尺度法、梯度下降法等等
七、支持向量机
1、核心思想
支持向量机解决二分类问题,其基本思想与感知机相似,都是找超平面,不过支持向量机的思想是找到这样的超平面,使得离超平面距离最近的点离超平面距离最远。
2、模型
![781d2e7dd95a4e0d149996e06b296d05.png](https://i-blog.csdnimg.cn/blog_migrate/8d514d4bf43feb0d00a81ff2dcfd6fdc.png)
3、策略
![3c057970542bdb6edcb67030e3fa67f2.png](https://i-blog.csdnimg.cn/blog_migrate/b83a02107fc39385c3f28dbaa452b8c2.png)
上式用话语说出来就是:使得离超平面距离最近的点距离超平面最远,转化为极小化问题就是:
![d5d2742f7be9e146acda19a80aa4f2c1.png](https://i-blog.csdnimg.cn/blog_migrate/fb86b4c93bf3c572255abc2c6c51e78f.png)
4、算法
序列最小优化算法
八、提升方法
1、核心思想
提升方法可以解决二分类、多分类及回归问题。其基本思想是:用弱的学习算法组合成强的学习算法,以提升学习能力。对于提升方法来说有两个问题,一个是每轮如何改变训练数据的权值或概率分布,一个是如何将弱分类器组合成一个强分类器。这两个问题不同的做法就形成一个不同的提升算法
2、模型
adaboost对于提升方法的两个问题的做法是:
a)对分错类的样本在下一轮中给予更高的权重(关注度)
b)用多数表决的方式将弱分类器组合成强分类器
在训练过程中需要学习的两个参数:样本的权重w,弱分类器的权重a
adaboost模型:
![9a59309f3151c28320ffec6038875e78.png](https://i-blog.csdnimg.cn/blog_migrate/c17ac60dcf42b97a8b3de5b2c49be4f8.png)
提升树对于提升方法的两个问题的做法是:
a)每一轮模拟上一轮样本的残差
b)每一轮决策树的加和模型
提升树模型
![f7d32b39dae620909edd4da14c57c2b1.png](https://i-blog.csdnimg.cn/blog_migrate/d0c02e6702b1d4c2f4e0d0bc7ae02c5b.png)
3、策略
adaboost:分类误差率最小
提升回归树:平方损失误差最小
九、隐马尔可夫模型
1、核心思想
隐马尔可夫模型主要解决含有隐含变量的问题,多用在解决标注问题上。其核心思想是:模型由初始状态概率向量
2、隐马尔可夫模型的3个基本问题:
a)概率计算问题
b)学习问题
c)预测问题
十、条件随机场
1、核心思想
条件随机场指的是随机变量x条件下,满足马尔科夫随机场的随机变量Y的概率。也可用于标注问题。
2、隐马尔可夫模型与马尔科夫随机场的异同点
相同点:隐马尔可夫与马尔科夫随机场都是马尔科夫,见到马尔科夫就想到独立性假设,也就是说隐马尔可夫有两个假设,一个是其次马尔科夫性假设:在任意时刻t的状态只依赖前一时刻的状态,一个是观测独立性假设:任意时刻的观测只依赖于该时刻的状态与其他观测及状态无关。而马尔科夫随机场也有类似的假设,即:条件概率只与有边连接的节点有关,与其他节点无关。
不同点:首先,隐马尔可夫模型是有向图,t时刻状态只与前面的状态和观测有关,观测只与当前的状态有关。而马尔科夫随机场是无向图,状态只与他相连的状态和观测有关
其次,马尔科夫随机场可以引入观测的特征入模,而隐马尔科夫只能用观测本身。比如说词性标注问题,隐马尔可夫只会用词本身作为观测,而马尔科夫随机场可以用词的长短等特征到模型中。