【统计学习|书籍阅读】第二章 感知机 p25-p35

思路

感知器对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型,感知机学习旨在求出将训练数据进行线性划分的分离超平面。为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求的感知机模型。感知机学习算法简单易实现,具有原始形式和对偶形式。

感知机

感知机是根据输入实例的特征向量 x x x对其进行二分类的线性分类模型:
f ( x ) = s i g n ( w ∗ x + b ) f(x)=sign(w*x+b) f(x)=sign(wx+b)感知器模型对应于输入空间(特征空间)中的分离超平面 w ∗ x + b = 0 w*x+b=0 wx+b=0

感知机学习策略

感知器的学习策略是极小化损失函数: min ⁡ w , b L ( w , b ) = − ∑ x j ⊆ M y i ( w ∗ x i + b ) \min_{w,b}L(w,b)=-\sum_{x_j\subseteq M}y_i(w*x_i+b) w,bminL(w,b)=xjMyi(wxi+b)
损失函数对应于误分类点到分类超平面的总距离。

感知机学习算法

感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有原始形式和对偶形式。原始算法中,首先任意选取一个超平面,然后用梯度下降法不断极小化目标函数,在这个过程中一次随机选取一个误分类点使其梯度下降。

感知机的原始形式

原始形式和对偶形式的区别就是损失函数的梯度不同。

感知器模型: f ( x ) = s i g n ( w ∗ x + b ) f(x)=sign(w*x+b) f(x)=sign(wx+b)
损失函数的梯度: ▽ w L ( w , b ) = − ∑ x j ⊆ M y i ∗ x i \bigtriangledown _wL(w,b)=-\sum_{x_j\subseteq M}y_i*x_i wL(w,b)=xjMyixi
▽ b L ( w , b ) = − ∑ x j ⊆ M y i \bigtriangledown _bL(w,b)=-\sum_{x_j\subseteq M}y_i bL(w,b)=xjMyi
w,b更新方式: w ← w + η y i x i w\gets w+\eta y_ix_i ww+ηyixi
b ← b + η y i b\gets b+\eta y_i bb+ηyi

感知机的对偶形式

对偶形式的基本思想是将w和b表示为实例xi和标记yi的线性组合的形式,通过求解系数而得到w和b.
感知机模型: f ( x ) = s i g n ( ∑ j = 1 N α i y i x i ∗ x + b ) f(x)=sign(\sum_{j=1}^{N} \alpha _iy_ix_i*x+b) f(x)=sign(j=1Nαiyixix+b)
学习到的w,b:
w = ∑ i = 1 N α i y i x i w=\sum_{i=1}^{N}\alpha _iy_ix_i w=i=1Nαiyixi
b = ∑ i = 1 N α i y i b=\sum_{i=1}^{N}\alpha _iy_i b=i=1Nαiyi
更新方式:
α i ← α i + η \alpha _i\gets \alpha _i+\eta αiαi+η
b ← b + η y i b\gets b+\eta y_i bb+ηyi

收敛性

当训练数据集线性可分时,感知器学习算法是收敛的。感知机算法在训练集上的误分类次数k满足不等式:
k ≤ ( R γ ) 2 k\le (\frac{R}{\gamma } )^{2} k(γR)2
当训练数据集线性可分时,感知机学习算法存在无穷多个解,其解由于不同的初值或不同的迭代顺序而可能有所不同。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lydia.na

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值