《统计学习方法》 第二章 感知机 笔记

本文深入解析了感知机模型,它作为二类分类的线性模型,寻找最优决策函数。感知机学习策略是通过最小化经验损失函数,通常采用随机梯度下降法。对于线性可分数据,感知机算法收敛,但面对线性不可分情况时,可能不收敛或产生震荡。此外,还探讨了感知机学习算法的对偶形式及其收敛性。
摘要由CSDN通过智能技术生成

第二章 感知机

2.1 感知机模型

  • 是一类二类分类的线性模型
  • 模型:从假设空间中找到的一个最优的
  • 决策函数:在这里插入图片描述
  • 属于判别模型
  • 分离超平面:下图 左下为正例,右上为负例
    在这里插入图片描述

2.2 感知机学习策略

  • 定义经验损失函数极小化

  • 损失函数的两种选择:

    • 误分类点的总数:但该函数不是参数w,b的连续可导函数
    • 误分类点到超平面S的总距离: 感知机采样该策略,因为该函数不是参数w,b的连续可导函数
      • 在这里插入图片描述
      • 上式的系数可去,因为w,b分别乘了个系数之后,变成另一个w1,b1,但我们只是为了求出参数w,b,故可去。
  • 感知机学习的策略是在假设空间中选取使损失函数最小的模型参数w,b ,即感知机模型。

2.3 感知机学习算法

  • 求解最优化问题:
    在这里插入图片描述

    • 随机梯度下降法 vs 批量梯度下降
      • 后者,数据量大,慢
      • 感知机中选用前者,极小化过程一次随机选取一个误分类点使其梯度下降。
  • 损失函数L(w,b)的梯度:
    在这里插入图片描述
    在这里插入图片描述
    注:上面的两个式子都是正的

  • 对w,b进行更新 在这里插入图片描述

  • 感知机学习算法由于采用不同的初值或选取不同的误分类点,解可以不同。

  • 感知机算法存在许多解,既依赖于初值,也依赖迭代 过程中误分类点的选择顺序。

  • 为了得到唯一的超平面,需要对分离超平面增加约束条件,即线性支持向量机的想法,——> 间隔最大化。

2.3.2 算法的收敛性

  • 感知机对于线性可分的决策函数,有解且收敛(迭代次数有上界)
  • 当训练集线性不可分时,感知机算法不收敛,迭代结果会发生震荡,故线性不可分的问题,不能使用感知机。

2.3.3 感知机学习算法的对偶形式

-在这里插入图片描述

  • 在这里插入图片描述
  • 与原始形式一样,感知机学习算法的对偶形式迭代是收敛的,存在多个解。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值