机器学习笔记之线性分类——感知机算法

机器学习笔记之线性分类——感知机算法

引言

上一节介绍了线性回归模型的具体性质,本节将介绍线性分类中第一个具有代表性意义的算法——感知机算法(Perceptron)。

回顾:线性回归与线性分类

线性回归的模型(拟合方程)具体表示如下:
f ( W , b ) = W T x ( i ) + b ( i = 1 , 2 , ⋯   , N ) f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b \quad(i = 1,2,\cdots,N) f(W,b)=WTx(i)+b(i=1,2,,N)
其中 N N N表示数据集合中样本数量。从模型的角度观察,线性回归与线性分类的最根本区别是模型中是否包含非线性激活函数

非线性激活函数的存在意义本质上是分类任务的需要。由于任务性质的不同:

  • 回归任务是 模型拟合样本。它的思路是模型如何精确描述真实样本的趋势。因此,它的策略(损失函数) 主要表示为 模型拟合结果 W T x ( i ) + b \mathcal W^{T}x^{(i)} +b WTx(i)+b与真实标签 y ( i ) y^{(i)} y(i)之间的差距信息
    L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) + b − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)}+b - y^{(i)}||^2 L(W)=i=1N∣∣WTx(i)+by(i)2

  • 分类任务是 模型划分样本。不同于回归任务,此时的样本点并不存在某种趋势,而是聚集在不同的样本子空间中。因此,线性分类的思路是 模型 f ( W , b ) = W T x ( i ) + b f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b f(W,b)=WTx(i)+b p p p维样本子空间中产生的线(超平面),对样本空间进行划分,从而实现各样本在对应样本子空间的分类效果

线性分类的类型

激活函数的连续性对线性分类类型进行划分:

  • 硬分类:激活函数是非连续型函数
  • 软分类:激活函数是连续型函数

二分类为例,真实标签结果 y ( i ) y^{(i)} y(i)只包含2个具体数值。例如:
y ( i ) ∈ { − 1 , 1 } ( i = 1 , 2 , ⋯   , N ) y^{(i)} \in \{-1,1\}\quad (i=1,2,\cdots,N) y(i){ 1,1}(i=1,2,,N)

  • 硬分类中激活函数映射结果 y p r e d ( i ) = s i g n ( W T x ( i ) + b ) y_{pred}^{(i)} = sign(\mathcal W^{T}x^{(i)} + b) ypred(i)=sign(WTx(i)+b)真实标签结果的特征空间相同。即:
    y p r e d ( i ) ∈ { − 1 , 1 } ( i = 1 , 2 , ⋯   , N ) y_{pred}^{(i)} \in \{-1,1\} \quad (i=1,2,\cdots,N) ypred(i){ 1,1}(i=1,2,,N)
  • 软分类中激活函数映射结果是基于连续空间 [ 0 , 1 ] [0,1] [0,1]中的结果,其实际意义为选择上述两种真实标签的概率结果。即:
    其中 p p p表示’激活函数映射结果’ y p r e d ( i ) y_{pred}^{(i)} ypred(i)选择数值1的概率;
    { P ( y p r e d ( i ) = 1 ) = p P ( y p r e d ( i ) = − 1 ) = 1 − p \begin{cases}P(y_{pred}^{(i)}=1) = p \\ P(y_{pred}^{(i)} = -1) = 1 - p \end{cases} { P(ypred(i)=1)=pP(ypred(i)=1)=1p

线性分类算法中:

  • 具有代表性的硬分类算法有感知机算法、线性判别分析(Linear Discriminant Analysis,LDA)
  • 具有代表性的软分类算法具体也分为两种:
    • 判别模型:代表模型有逻辑回归(Logistic Regression)
      判别模型的主要思路:直接求解 条件概率 P ( Y p r e d = − 1 ∣ X ) P(\mathcal Y_{pred}=-1 \mid \mathcal X) P(Ypred=1X) P ( Y p r e d = 1 ∣ X ) P(\mathcal Y_{pred}=1 \mid \mathcal X) P(Ypred=1X)之间的大小关系。其中 X , Y p r e d \mathcal X,\mathcal Y_{pred} X,Ypred分别表示样本集合预测标签的概率分布集合
    • 生成模型:代表模型有高斯判别分析(Gaussian Discriminant Analysis,GDA)
      生成模型的主要思路:使用贝叶斯定理 P ( Y p r e d ∣ X ) P(\mathcal Y_{pred} \mid \mathcal X) P(YpredX)分解为如下形式:
      P ( Y p r e d ∣ X ) = P ( X ∣ Y p r e d ) P ( Y p r e d ) P ( X ) P(\mathcal Y_{pred} \mid \mathcal X) = \frac{P(\mathcal X \mid \mathcal Y_{pred})P(\mathcal Y_{pred})}{P(\mathcal X)} P(YpredX)=
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值