统计学习方法——感知机

最新推荐文章于 2024-01-22 20:20:20 发布

我是刘某某

最新推荐文章于 2024-01-22 20:20:20 发布

阅读量194

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/lekusun9671/article/details/104702629

版权

统计学习方法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

算法介绍

算法流程

算法总结

算法介绍

感知机是一种用于二分类的线性分类模型，通过随机梯度下降法最小化损失函数找到一个可以将正负样本完全分隔开的超平面。

训练数据： $\left \{ \left ( x_{1}, y_{1} \right ), \left ( x_{2}, y_{2} \right ),...,\left ( x_{n}, y_{n} \right ) \right \}$ ，其中 $x_{i} =\left \{ x_{i}^{(1)},x_{i}^{(2)},..., x_{i}^{(m)}\right \}$ ， $y_{i}\in \left \{ -1, 1 \right \}$ ，m代表特征维度，n代表样本个数。

我们要找到一个超平面 $\omega x+b=0$ ，对于所有真样本有 $\omega x_{i}+b>0$ ；对于所有负样本有 $\omega x_{i}+b<0$ 。将两个条件综合起来就是 $y_{i}\left ( \omega x_{i}+b \right )>0,i=1,2,...,n$ 。对于分错的样本有 $-y_{i}\left ( \omega x_{i}+b \right )>0, i\in M$ ,M指的是分错的样本组成的集合。所以我们的目标就是使分错的样本尽可能的少： $L(\omega ,b) = \sum_{x_{i}\in M}-y_{i}\left ( \omega x_{i}+b \right )$ （1）

我们要如何实现这个目标呢？用随机梯度下降法。

在介绍随机梯度下降法之前，我们先来说一下梯度下降法。梯度是函数值增长最快的方向，为了快速最小化损失函数，每次优化时让参数沿着目标函数梯度最大的饭方向移动一小步。首先目标函数对参数 $\omega, b$ 进行求导：

$\frac{\partial L}{\partial \omega } = \frac{\partial \sum_{x_{i}\in M}-y_{i}(\omega x_{i}+b)}{\partial \omega }=-\sum_{x_{i}\in M}x_{i}y_{x}$ （2）

$\frac{\partial L}{\partial b} = \frac{\partial \sum_{x_{i}\in M}-y_{i}(\omega x_{i}+b)}{\partial \omega }=-\sum_{x_{i}\in M}{y_{i}}$ （3）

梯度下降法的优化公式：

$\omega _{i} = \omega _{i}-\frac{\partial L}{\partial \omega _{i}}= \omega_{i}+\beta \sum_{i\in M}x_{i}y_{i}$ （4）

$b = b+\beta \sum_{x_{i}\in M}y_{i}$ （5）

感知器用的是随机梯度下降法，不同于梯度下降法每次优化需要用全部的训练数据，随机梯度下降法每次仅用一条数据进行优化，优化过程：从训练集中选择一条分类错误的数据 $\left ( x_{i}, y_{i} \right )$ ，更新参数：

$\omega _{i} = \omega _{i}+\beta x_{i}y_{i}$ （6）

$b= b+\beta y_{i}$ （7）

当所有的训练数据都分类正确时得到的参数就是我们的优化结果了。

算法流程

现在我们来总结一下感知机分类器的训练流程：

1. 初始化参数： $\omega_{i}=0, b=0$ ；

2. 从训练数据中找一条分类错误的数据，用公式(6)(7)更新参数；

3. 重复执行2，直至所有的数据都分类正确。

算法总结

1. 初始参数和每次更新参数的训练数据选择的不同会得到的不同的模型；

2. 得到的模型并非最优化模型。

我是刘某某

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法——感知机

目录算法介绍算法流程算法总结算法介绍感知机是一种用于二分类的线性分类模型，通过随机梯度下降法最小化损失函数找到一个可以将正负样本完全分隔开的超平面。训练数据：，其中我们要找到一个超平面，对于所有真样本有；对于所有负样本有。将两个条件综合起来就是。对于分错的样本有,M指的是分错的样本组成的集合。所以我们的目标就是使分错的样本尽可能的少： ...
复制链接

扫一扫

专栏目录