机器学习算法原理——感知机

感知机

输入空间: X ⊆ R n \mathcal X\subseteq{\bf R^n} XRn ;输入: x = ( x ( 1 ) , x ( 2 ) , ⋅ ⋅ ⋅ , x ( n ) ) T ∈ X x=\left(x^{(1)},x^{(2)},\cdot\cdot\cdot,x^{(n)}\right)^{T}\in{\mathcal{X}} x=(x(1),x(2),,x(n))TX

输出空间: Y = { + 1 , − 1 } {\mathcal Y}=\{+1,-1\} Y={+1,1} ;输出: y ∈ Y y \in \mathcal{Y} yY

感知机:
f ( x ) = s i g n ( w ⋅ x + b ) = { + 1 , w ⋅ x + b ≥ 0 − 1 , w ⋅ x + b < 0 f(x)=\mathrm{sign}(w\cdot x+b)=\left\{\begin{array}{l l}{{+1,}}&{{w\cdot x+b\geq0}}\\ {{-1,}}&{{w\cdot x+b\lt 0}}\end{array}\right. f(x)=sign(wx+b)={+1,1,wx+b0wx+b<0
其中, w = ( w ( 1 ) ,   w ( 2 ) ,   ⋅   ⋅   ⋅   ,   w ( n ) ) T   ∈ R n w = \left(w^{(1)},\,w^{(2)},\,\cdot\,\cdot\,\cdot\,\mathrm{,\,}w^{(n)}\right)^{T}\,\in {\bf R^n} w=(w(1),w(2),,w(n))TRn (Weight), b ∈ R b \in \bf R bR 称为偏置(Bias), w ⋅ x w \cdot x wx 表示内积
w ⋅ x = w ( 1 ) x ( 1 ) + w ( 2 ) x ( 2 ) + ⋯ + w ( n ) x ( n ) w \cdot x=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)} wx=w(1)x(1)+w(2)x(2)++w(n)x(n)
假设空间: F = { f ∣    f ( x ) = w ⋅ x + b } {\mathcal{F}}=\{{\mathcal{f}}|\;{\mathcal{f}}(x)=w\cdot x+b\} F={ff(x)=wx+b}

几何含义

在这里插入图片描述

线性方程:
w ⋅ x + b = 0 w \cdot x + b = 0 wx+b=0
特征空间 R n {\bf R^n} Rn 中的一个超平面: S \rm S S ;法向量: w w w ;截距: b b b

条件

数据集的线性可分性

给定数据集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋅ ⋅ ⋅ ⋅ , ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{2},y_{2})\cdot\cdot\cdot\cdot,(x_{N},y_{N})\} T={(x1,y1),(x2,y2),(xN,yN)}
若存在某个超平面 S \rm S S
w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0
能够将数据集的正负实例点完全正确的划分到超平面两侧,即:
{ y i = + 1 , w ⋅ x i + b > 0 y i = − 1 , w ⋅ x i + b < 0 \left\{\begin{array}{l l}{{y_{i}=+1,}}&{{ w\cdot x_{i}+b\gt 0}}\\ {{y_{i}=-1,}}&{{ w\cdot x_{i}+b\lt 0}}\end{array}\right. {yi=+1,yi=1,wxi+b>0wxi+b<0
那么,称 T T T 为线性可分数据集;否则,称 T T T 为线性不可分。

∀ x 0 ∈ R n \forall x_{0}\in{\bf R^n} x0Rn S \rm S S 的距离:
1 ∥ w ∥ ∣ w ⋅ x 0 + b ∣ \frac{1}{\|w\|}\left|w \cdot x_0+b\right| w1wx0+b
这里, ∥ w ∥ \|w\| w w w w L 2 L_2 L2 范数。

  • x 0 x_0 x0 是正确分类点,则:

1 ∥ w ∥ ∣ w ⋅ x 0 + b ∣ = { w ⋅ x 0 + b ∥ w ∥ , y 0 = + 1 − w ⋅ x 0 + b ∥ w ∥ , y 0 = − 1 \frac{1}{\|w\|}\left|w \cdot x_0+b\right|=\left\{\begin{aligned} \frac{w \cdot x_0+b}{\|w\|}, & y_0=+1 \\ -\frac{w \cdot x_0+b}{\|w\|}, & y_0=-1 \end{aligned}\right. w1wx0+b= wwx0+b,wwx0+b,y0=+1y0=1

  • x 0 x_0 x0 是错误分类点,则:

1 ∥ w ∥ ∣ w ⋅ x 0 + b ∣ = { − w ⋅ x 0 + b ∥ w ∥ , y 0 = + 1 w ⋅ x 0 + b ∥ w ∥ , y 0 = − 1 = − y 0 ( w ⋅ x 0 + b ) ∥ w ∥ \frac{1}{\|w\|}\left|w \cdot x_0+b\right|=\left\{\begin{array}{cc} -\frac{w \cdot x_0+b}{\|w\|}, & y_0=+1 \\ \frac{w \cdot x_0+b}{\|w\|}, & y_0=-1 \end{array}=\frac{-y_0\left(w \cdot x_0+b\right)}{\|w\|}\right. w1wx0+b={wwx0+b,wwx0+b,y0=+1y0=1=wy0(wx0+b)

误分类点 x i x_i xi S \rm S S 的距离:
$$

  • \frac{1}{|w|}\left|w \cdot x_0+b\right|
    KaTeX parse error: Can't use function '$' in math mode at position 10: 所有误分类点到 $̲\rm S$ 的距离:
    -\frac{1}{|w|} \sum_{x_i \in M} y_i\left(w \cdot x_i+b\right)
    $$
    其中, M M M 代表所有误分类点的集合。

损失函数:
L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x i + b ) L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b) L(w,b)=xiMyi(wxi+b)

模型参数估计:
arg ⁡ min ⁡ w , b L ( w , b ) \underset{w, b}{\arg \min } L(w, b) w,bargminL(w,b)

梯度下降法

梯度:指某一函数在该点处最大的方向导数,沿着该方向可取得最大的变化率。
∇ = ∂ f ( θ ) ∂ θ \nabla={\frac{\partial f(\theta)}{\partial\theta}} =θf(θ)
f ( θ ) f(\theta) f(θ) 是凸函数,可通过梯度下降法进行优化:
θ ( k + 1 ) = θ ( k ) − η ∇ F ( θ ( k ) ) \theta^{(k+1)}=\theta^{(k)}-\eta\nabla F(\theta^{(k)}) θ(k+1)=θ(k)ηF(θ(k))
η \eta η 表示步长,在统计学中表示学习率

输入:目标函数 f ( θ ) f(\theta) f(θ) ,步长 η \eta η ,计算精度 $\epsilon $ ;

输出: f ( θ ) f(\theta) f(θ) 的极小值点 θ ∗ \theta^* θ

  • 选取初始值 θ ( 0 ) ∈ R n \theta^{(0)}\in{\bf R^n} θ(0)Rn ,置 k = 0 k = 0 k=0
  • 计算 f ( θ ( k ) ) f(\theta^{(k)}) f(θ(k))
  • 计算梯度 ∇ f ( θ ( k ) ) \nabla f(\theta^{(k)}) f(θ(k))
  • θ ( k + 1 ) = θ ( k ) − η ∇ F ( θ ( k ) ) \theta^{(k+1)}=\theta^{(k)}-\eta\nabla F(\theta^{(k)}) θ(k+1)=θ(k)ηF(θ(k)) ,计算 f ( θ ( k + 1 ) ) f(\theta^{(k +1)}) f(θ(k+1)) ,当 ∣ ∣ f ( θ ( k + 1 ) ) − f ( θ ( k ) ) ∣ ∣ < ϵ ||f(\theta^{(k+1)})-f(\theta^{(k)})||\lt \epsilon ∣∣f(θ(k+1))f(θ(k))∣∣<ϵ 或者 ∣ ∣ θ ( k + 1 ) − θ ( k ) ∣ ∣ < ϵ ||\theta^{(k+1)}-\theta^{(k)}||\lt \epsilon ∣∣θ(k+1)θ(k)∣∣<ϵ 时,停止迭代,令 θ ∗ = θ ( k + 1 ) \theta^* = \theta^{(k+1)} θ=θ(k+1)
  • 否则,置 k = k + 1 k = k+1 k=k+1 ,转到第三步。

感知机的原始形式(随机梯度下降法)

损失函数:
L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x i + b ) L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b) L(w,b)=xiMyi(wxi+b)
梯度:
∇ w L ( w , b ) = − ∑ x i ∈ M y i x i ; ∇ b L ( w , b ) = − ∑ x i ∈ M y i \nabla_{w}L(w,b)=-\sum_{x_{i}\in M}y_{i}x_{i} ; \qquad \qquad \nabla_{b}L(w,b)=-\sum_{x_{i}\in M}y_{i} wL(w,b)=xiMyixi;bL(w,b)=xiMyi
梯度下降:
θ ( k + 1 ) = θ ( k ) − η ∇ F ( θ ( k ) ) \theta^{(k+1)}=\theta^{(k)}-\eta\nabla F(\theta^{(k)}) θ(k+1)=θ(k)ηF(θ(k))
参数更新:

  • 批量梯度下降法(Batch Gradient Descent):每次迭代时使用所有误分类点来进行参数更新。
    w ← w + η ∑ x i ∈ M y i x i ; b ← b + η ∑ x i ∈ M y i w\leftarrow w+\eta\sum_{x_{i}\in M}y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta\sum_{x_{i}\in M}y_{i} ww+ηxiMyixi;bb+ηxiMyi
    其中, η ( 0 < η ≤ 1 ) \eta(0<\eta \leq 1) η(0<η1) 代表步长。

  • 随机梯度下降法(Stochastic Gradient Descent):每次随机选取一个误分类点

w ← w + η y i x i ; b ← b + η y i w\leftarrow w+\eta y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta y_{i} ww+ηyixi;bb+ηyi

算法
输入:训练集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋅ ⋅ ⋅ ⋅ , ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{2},y_{2})\cdot\cdot\cdot\cdot,(x_{N},y_{N})\} T={(x1,y1),(x2,y2),(xN,yN)}
​ 其中, x i ∈ X ⊆ R n x_i \in \mathcal X \subseteq \bf R^n xiXRn y ∈ Y = + 1 , − 1 y \in \mathcal Y = {+1,-1} yY=+1,1 ;步长 η ( 0 < η ≤ 1 ) \eta(0 < \eta \leq 1) η(0<η1)

输出: w , b w,b w,b ;感知机模型 f ( x ) = s i g n ( w ⋅ x + b ) f(x) = \mathrm{sign}(w \cdot x + b) f(x)=sign(wx+b)

  • 选取初始值 w 0 , b 0 w_0, b_0 w0,b0
  • 于训练集中随机选取数据 ( x i , y i ) (x_i, y_i) (xi,yi)
  • y i ( w ⋅ x i + b ) ≤ 0 y_i (w \cdot x_i + b) \leq 0 yi(wxi+b)0

w ← w + η y i x i ; b ← b + η y i w\leftarrow w+\eta y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta y_{i} ww+ηyixi;bb+ηyi

感知机的对偶形式

在原始形式中,若 ( x i , y i ) (x_i, y_i) (xi,yi) 为误分类点,更新参数:
w ← w + η y i x i ; b ← b + η y i w\leftarrow w+\eta y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta y_{i} ww+ηyixi;bb+ηyi
假设初始值 w 0 = 0 , b 0 = 0 w_0 = 0, b_0 = 0 w0=0,b0=0 ,对误分类点 ( x i , y i ) (x_i,y_i) (xi,yi) 通过上述公式更新参数,修改 n i n_i ni 次之后, w , b w,b w,b 的增量分别为 α i y i x i \alpha_i y_i x_i αiyixi α i y i \alpha_i y_i αiyi ,其中 α i = n i η \alpha_i = n_i \eta αi=niη n i n_i ni 是点 ( x i , y i ) (x_i,y_i) (xi,yi) 被误分类的次数。

最后学习到的参数为:
w = ∑ i = 1 N α i y i x i ; b = ∑ i = 1 N α i y i w=\sum_{i=1}^{N}\alpha_{i}y_{i}x_{i};\qquad \qquad b=\sum_{i=1}^{N}\alpha_{i}y_{i} w=i=1Nαiyixi;b=i=1Nαiyi
算法
输入:训练集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋅ ⋅ ⋅ ⋅ , ( x N , y N ) } T=\{(x_{1},y_{1}),(x_{2},y_{2})\cdot\cdot\cdot\cdot,(x_{N},y_{N})\} T={(x1,y1),(x2,y2),(xN,yN)}
​ 其中, x i ∈ X ⊆ R n x_i \in \mathcal X \subseteq \bf R^n xiXRn y ∈ Y = + 1 , − 1 y \in \mathcal Y = {+1,-1} yY=+1,1 ;步长 η ( 0 < η ≤ 1 ) \eta(0 < \eta \leq 1) η(0<η1)

输出: α , b \alpha,b α,b ;感知机模型 f ( x ) = s i g n ( ∑ j = 1 N α i y i x j ⋅ x + b ) f(x) = \mathrm{sign}(\sum_{j = 1}^{N} \alpha_i y_i x_j \cdot x + b) f(x)=sign(j=1Nαiyixjx+b) ,其中 α = ( α 1 , α 2 , ⋯   , α N ) T \alpha = {(\alpha_1, \alpha_2, \cdots, \alpha_N)}^T α=(α1,α2,,αN)T

  • 选取初始值 α < 0 > = ( 0 , 0 , ⋅ ⋅ ⋅ , 0 ) T ,   b < 0 > = 0 \alpha^{\lt 0\gt }=(0,0,\cdot\cdot\cdot,0)^{T},\ b^{\lt 0\gt }=0 α<0>=(0,0,,0)T, b<0>=0 ,上标表示被误分类的次数;

  • 于训练集中随机选取数据 ( x i , y i ) (x_i,y_i) (xi,yi)

  • y i ( ∑ j = 1 N α j y j x j ⋅   x i + b ) ≤ 0 y_{i}(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot\,x_{i}+b)\leq0 yi(j=1Nαjyjxjxi+b)0
    α ← α + η ; b ← b + η y i {\alpha} \leftarrow {\alpha +\eta};\qquad\qquad b\leftarrow b+\eta y_{i} αα+η;bb+ηyi

  • 转(2),直至没有误分类点。

Gram 矩阵

对于感知机的对偶形式中的(3): y i ( ∑ j = 1 N α j y j x j ⋅   x i + b ) ≤ 0 y_{i}(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot\,x_{i}+b)\leq0 yi(j=1Nαjyjxjxi+b)0

迭代条件:
y i ( ∑ j = 1 N α j y j x j ⋅ x i + b ) = y i [ ( α 1 y 1 x 1 + α 2 y 2 x 2 + ⋯ + α N y N x N ) ⋅ x i + b ) ] = y i ( α 1 y 1 x 1 ⋅ x i + α 2 y 2 x 2 ⋅ x i + ⋯ + α N y N x N ⋅ x i + b ) ≤ 0 \begin{aligned} y_i\left(\sum_{j=1}^N \alpha_j y_j x_j \cdot x_i+b\right) & \left.=y_i\left[\left(\alpha_1 y_1 x_1+\alpha_2 y_2 x_2+\cdots+\alpha_N y_N x_N\right) \cdot x_i+b\right)\right] \\ & =y_i\left(\alpha_1 y_1 x_1 \cdot x_i+\alpha_2 y_2 x_2 \cdot x_i+\cdots+\alpha_N y_N x_N \cdot x_i+b\right) \\ & \leq 0 \end{aligned} yi(j=1Nαjyjxjxi+b)=yi[(α1y1x1+α2y2x2++αNyNxN)xi+b)]=yi(α1y1x1xi+α2y2x2xi++αNyNxNxi+b)0
Gram 矩阵: N N N 维欧式空间中任意 k k k 个向量之间两两的内积所组成的矩阵
G = [ x i ⋅ x j ] N × N = [ x 1 ⋅ x 1 x 1 ⋅ x 2 ⋯ x 1 ⋅ x N x 2 ⋅ x 1 x 2 ⋅ x 2 ⋯ x 2 ⋅ x N ⋮ ⋮ ⋮ x N ⋅ x 1 x N ⋅ x 2 ⋯ x N ⋅ x N ] G=\left[x_i \cdot x_j\right]_{N \times N}=\left[\begin{array}{cccc} x_1 \cdot x_1 & x_1 \cdot x_2 & \cdots & x_1 \cdot x_N \\ x_2 \cdot x_1 & x_2 \cdot x_2 & \cdots & x_2 \cdot x_N \\ \vdots & \vdots & & \vdots \\ x_N \cdot x_1 & x_N \cdot x_2 & \cdots & x_N \cdot x_N \end{array}\right] G=[xixj]N×N= x1x1x2x1xNx1x1x2x2x2xNx2x1xNx2xNxNxN

在感知机的对偶形式中,可将 Gram 矩阵提前算出。

总结归纳

  • 超平面:在几何空间中,如果环境空间中是 n n n 维,那么它所对应的超平面就是 n − 1 n - 1 n1 维的子空间。
  • 感知机必须要求数据集线性可分,因为算法的停止条件就是没有误分类点。
  • 对于所有误分类点到 S \rm S S 的距离: − 1 ∥ w ∥ ∣ w ⋅ x 0 + b ∣ - \frac{1}{\|w\|}\left|w \cdot x_0+b\right| w1wx0+b 1 ∥ w ∥ \frac{1}{\|w\|} w1 不影响损失函数的正负值判断,同时不影响感知机的分类结果,故在损失函数中不体现。
  • 梯度可以简单理解为对损失函数求偏导
  • 梯度下降算法无法处理鞍点的情况,故梯度下降算法只能得到局部最优点,无法找到全局最优解。
  • 当数据维度过高时,批量梯度算法的求解过于复杂,甚至会出现无法求出最优解的情况,故在相关算法中,随机梯度下降法仍是求解的第一选择。
  • 提前将 Gram 矩阵算出,在对偶形式的感知机进行函数计算时,直接利用 Gram 矩阵预先计算的结果,会提高算法的速度。
  • 若采用随机梯度下降法, y i ( ∑ j = 1 N α j y j x j ⋅   x i + b ) ≤ 0 y_{i}(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot\,x_{i}+b)\leq0 yi(j=1Nαjyjxjxi+b)0 实际上只有一个误分类点,并无求和。
  • 感知机求得的超平面不唯一,若唯一则需要添加限定条件,这是支持向量机的内容。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值