《统计学习方法》学习笔记（二）：感知机

最新推荐文章于 2023-02-18 11:09:22 发布

baifanyanda

最新推荐文章于 2023-02-18 11:09:22 发布

阅读量765

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/baifanyanda/article/details/50069655

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

　　今天讲到的是机器学习经典算法中比较简单的一种——感知机（Perceptron），用于二值分类的线性模型，寻找输入空间中将实例划分为正负两类的分离超平面，属于判别模型。
　　

根据三要素顺序介绍感知机：
　　1、模型
　　假设输入空间 $X \in R^{n}$ ，输出空间为 $y\in Y=\left \{ -1, 1 \right \}$ (刚刚接触机器学习发现此处为什么设置为-1和1，没有别的意思，就是区分两个不同的类而已，也可以改成别的两个不同的数)，感知器模型：
　　　　　　　　　　　　　　　　　　　 $f(x)=sign(w\cdot x+b)$
感知机是线性分类模型，也是判别模型，故假设空间 $H$ 中定义为输入空间中所有的线性模型，即 $\left \{ f|f(x)=w\cdot x+b\right\}$
　　2、学习策略
　　感知机是线性模型，要保证训练数据 $T$ 线性可分，才能保证存在某个超平面 $S: w\cdot x+b=0$ 成立。首先，确定一个经验损失函数，最小化损失函数来确定参数 $w,b$ ，就能找到此超平面。
　　输入空间中任意一点 $x_{0}$ 到超平面 $S$ 的距离为： $\frac{1}{\left \| w \right \| }|w\cdot x+b|$ ，对于误分类点 $(x_{i}, y_{i})$ ，存在 $-y_{i}(w\cdot x_{i}+b)>0$ ，故误分类点 $x_{i}$ 距离超平面的距离是： $-\frac{1}{\left \| w \right \| }y_{i}(w\cdot x_{i}+b)$ ，对所有误分类点有： $-\frac{1}{\left \| w \right \| } \sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$ ，由于 $\left \| w \right \|$ 为定值，可得损失函数：
　　 $L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$
学习策略即在假设空间 $H$ 中选取损失函数最小的模型参数 $w,b$
　　3、算法
　　对于求解感知机最小化损失函数，采用随机梯度下降法：
　　　　　　　　　　　目标函数： $\min_{w,b}L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$ 　　　
M为误分类点集合
　　分别对损失函数 $L$ (w,b)求参数 $w,b$ 的梯度：
　　　　　　　　　　　　　　　 $\bigtriangledown _{w} = -\sum _{x_{i}\in M}y_{i}x_{i}$ 　　　　 $\bigtriangledown _{b} = -\sum _{x_{i}\in M}y_{i}$
　　随机选取一个误分点 $(x_{i},y_{i})$ ，对 $w,b$ 进行更新：
　　　　　　　　　　　　　　　　　 $w\leftarrow w+\eta y_{i}x_{i}$ 　　　　　　 $b\leftarrow b+\eta y_{i}$ 　　
其中 $\eta(0<\eta <=1)$ 为步长，又叫做学习率（举个例子，你去目的地选择步行，高个子的人步子大，走的比矮个子步幅小的人要快一些）
　　最后，停止的条件是什么呢？不可能一直这么走下去吧，算法的收敛性告诉我们需要进行多少次迭代可以得到将训练样本完全正确分开的分离超平面，本章进行了证明，Novikoff的两个条件就不在列出。
　　感知机算是最简单的机器学习算法了，设计的知识非常基础，其中随机梯度下降法在以后的算法学习还会经常用到。
习题
　　有正实例点 $x_{1}=(3,3)^{T},x_{2}=(4,3)^{T}$ ，负实例点为 $x_{3}=(1,1)^{T}$ ，求解感知机模型。
　　答案： $f(x)=sign(x^{(1)}+x^{(2)}-3)$