《统计学习方法》第二章&第十二章:感知机和统计学习方法总结

监督学习,二分类

根据损失函数:,求解优化问题

求得:分离超平面,感知机模型

目录

一、统计学习方法总结

二、感知机(Perceptron)

三、感知机模型

四、感知机策略

五、感知机算法

1、感知机算法原理

2、感知机算法的原始形式

3、感知机算法的例子

4、感知机算法收敛性

六、感知机算法的对偶形式

1、基本想法

2、例子


一、统计学习方法总结

10种统计方法特点总结
方法适用问题模型特点模型类型学习策略学习的损失函数学习算法
感知机二分类分离超平面判别模型min{误分点到超平面距离}误分点到超平面距离随机梯度下降
支持向量积二分类分离超平面,核技巧判别模型

min{正则化合页损失},

max{软间隔}

合页损失序列最小最优化算法(SMO)
提升方法二分类弱分类器的线性组合判别模型min{加法模型的指数损失}指数损失前向分步加法算法
朴素贝叶斯法多分类特征与类别的联合概率分布,条件独立假设生成模型

极大似然估计,

max{后验概率估计}

对数似然损失概率计算公式,EM算法
logistic回归与最大熵模型多分类特征条件下的类别条件概率分布,对数线性模型判别模型极大似然估计,正则化的极大似然估计logistc损失改进的迭代尺度算法,梯度下降,拟牛顿法
k 近邻法多分类,回归特征空间,样本点判别模型
决策树多分类,回归分类树,回归树判别模型正则化的极大似然估计对数似然损失特征选择,生成,剪枝
隐马尔可夫模型标注观测序列与状态序列的联合概率分布模型生成模型

极大似然估计,

max{后验概率估计}

对数似然损失概率计算公式,EM算法
条件随机场标注状态序列条件下观测序列的条件概率分布,对数线性模型判别模型极大似然估计,正则化的极大似然估计对数似然损失改进的迭代尺度算法,梯度下降,拟牛顿法
EM算法概率模型参数估计含隐变量概率模型

极大似然估计,

max{后验概率估计}

对数似然损失迭代算

二、感知机(Perceptron)

输入:实例的特征向量(感知机对应于输入空间中将实例分为正负两类的分离超平面)

输出:实例的类别,取+1、-1

优点:简单而易实现

三、感知机模型

输入空间(特征空间):,实例的特征向量:

输出空间:,实例的类别:

感知机(输入空间到输出空间的函数)

w:权值向量;b:偏置;· 内积;                                                         

几何解释:

距离:

 

四、感知机策略

损失函数=;M为误分类点数目

1、误分类点数目,但不是w,b连续可导,不宜优化。

2、误分类点到超平面的总距离。

总距离= ;误分类点:((w·x+b)和y符号一致性);误分类点距离=

五、感知机算法

1、感知机算法原理

优化问题:

解法:随机梯度下降法。

1)随机选一个超平面(w,b),不断极小化目标函数L:

L的梯度:对w求偏导:;对b求偏导:

2)选取误分类点(x,y)满足更新:

2、感知机算法的原始形式

3、感知机算法的例子

1)例子1:

4、感知机算法收敛性

算法的收敛性:证明经过有限次迭代,可以得到一个将训练数据集,完全正确划分的分离超平面感知机模型

【定理】b并入权重向量w,记作:

【证明】

(1)有限的点


(2)

定理表明:
  1. 误分类的次数k是有上界的,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的
  2. 感知机算法存在许多解,既依赖于初值,也依赖迭代过程中误分类点的选择顺序
  3. 为得到唯一分离超平面,需要增加约束,如SVM
  4. 线性不可分数据集,迭代震荡。

六、感知机算法的对偶形式

1、基本想法

    

N个误分类点(也可非误分类点,在这个点时α=0),由于每个误差点可能会重复计算多次,所以用表示,而不用前者是后者的倍数

2、例子

                     

Gram矩阵的作用:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值