监督学习,二分类
根据损失函数:,求解优化问题
求得:分离超平面,感知机模型
目录
一、统计学习方法总结
方法 | 适用问题 | 模型特点 | 模型类型 | 学习策略 | 学习的损失函数 | 学习算法 |
---|---|---|---|---|---|---|
感知机 | 二分类 | 分离超平面 | 判别模型 | min{误分点到超平面距离} | 误分点到超平面距离 | 随机梯度下降 |
支持向量积 | 二分类 | 分离超平面,核技巧 | 判别模型 | min{正则化合页损失}, max{软间隔} | 合页损失 | 序列最小最优化算法(SMO) |
提升方法 | 二分类 | 弱分类器的线性组合 | 判别模型 | min{加法模型的指数损失} | 指数损失 | 前向分步加法算法 |
朴素贝叶斯法 | 多分类 | 特征与类别的联合概率分布,条件独立假设 | 生成模型 | 极大似然估计, max{后验概率估计} | 对数似然损失 | 概率计算公式,EM算法 |
logistic回归与最大熵模型 | 多分类 | 特征条件下的类别条件概率分布,对数线性模型 | 判别模型 | 极大似然估计,正则化的极大似然估计 | logistc损失 | 改进的迭代尺度算法,梯度下降,拟牛顿法 |
k 近邻法 | 多分类,回归 | 特征空间,样本点 | 判别模型 | 无 | 无 | 无 |
决策树 | 多分类,回归 | 分类树,回归树 | 判别模型 | 正则化的极大似然估计 | 对数似然损失 | 特征选择,生成,剪枝 |
隐马尔可夫模型 | 标注 | 观测序列与状态序列的联合概率分布模型 | 生成模型 | 极大似然估计, max{后验概率估计} | 对数似然损失 | 概率计算公式,EM算法 |
条件随机场 | 标注 | 状态序列条件下观测序列的条件概率分布,对数线性模型 | 判别模型 | 极大似然估计,正则化的极大似然估计 | 对数似然损失 | 改进的迭代尺度算法,梯度下降,拟牛顿法 |
EM算法 | 概率模型参数估计 | 含隐变量概率模型 | 无 | 极大似然估计, max{后验概率估计} | 对数似然损失 | 迭代算 |
二、感知机(Perceptron)
输入:实例的特征向量(感知机对应于输入空间中将实例分为正负两类的分离超平面)
输出:实例的类别,取+1、-1
优点:简单而易实现
三、感知机模型
输入空间(特征空间):,实例的特征向量:
输出空间:,实例的类别:
感知机:(输入空间到输出空间的函数)
w:权值向量;b:偏置;· 内积;
几何解释:
距离:
四、感知机策略
损失函数=;M为误分类点数目
1、误分类点数目,但不是w,b连续可导,不宜优化。
2、误分类点到超平面的总距离。
总距离= ;误分类点:((w·x+b)和y符号一致性);误分类点距离=
五、感知机算法
1、感知机算法原理
优化问题:
解法:随机梯度下降法。
1)随机选一个超平面(w,b),不断极小化目标函数L:
L的梯度:对w求偏导:;对b求偏导:
2)选取误分类点(x,y)满足更新:;;
2、感知机算法的原始形式
3、感知机算法的例子
1)例子1:
4、感知机算法收敛性
算法的收敛性:证明经过有限次迭代,可以得到一个将训练数据集,完全正确划分的分离超平面及感知机模型。
【定理】将b并入权重向量w,记作:;
【证明】
(1)有限的点
(2)
- 误分类的次数k是有上界的,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的。
- 感知机算法存在许多解,既依赖于初值,也依赖迭代过程中误分类点的选择顺序。
- 为得到唯一分离超平面,需要增加约束,如SVM。
- 线性不可分数据集,迭代震荡。
六、感知机算法的对偶形式
1、基本想法
N个误分类点(也可非误分类点,在这个点时α=0),由于每个误差点可能会重复计算多次,所以用表示,而不用前者是后者的倍数
2、例子
Gram矩阵的作用: