[ML] 感知机

最新推荐文章于 2023-06-04 10:04:18 发布

YasinQiu

最新推荐文章于 2023-06-04 10:04:18 发布

阅读量164

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/pangtouyu_qy/article/details/79503465

版权

ML 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

综述

面向的问题: 二分类问题
输入: 实例的特征向量, $x∈R^n$
输出: 实例的类别, $y = \lbrace+1, -1\rbrace$
目标: 求出将数据进行线性划分的分离超平面
方法: 损失函数 + 梯度下降

1. 感知机模型

$f(x) = sign(w·x + b)$ 其中, $sign(x) = \begin{cases} +1, & \text {x≥0} \\ -1, & \text{x<0} \end{cases}$
假设空间: 所有的线性分类模型, 即函数集合

几何解释

w是超平面的法向量

2. 感知机学习策略

前提: 数据集要有线性可分性.

2.1 损失函数的定义

要求: 对w和b连续可导
任一点到超平面S的距离为: $\frac{1}{||w||} |w·x_0 + b|$
损失函数表达式: 误分类点到超平面S的总距离(可以不考虑||w||)
$L(w, b) = -\displaystyle\sum_{x_i∈M} y_i (w·x_i + b)$
该函数就是感知机学习的经验风险函数. 感知机的学习策略就是在假设空间中选择能使损失函数最小的模型参数(w, b).

2.2 对损失函数使用随机梯度下降

具体做法: 任选一个超平面, 计算损失函数L(w,b), 然后极小化L, 注意这里的极小化操作不是使所有的误分类点梯度下降, 而是随机选取一个误分类点使其梯度下降.
损失函数的梯度为:
$▽_wL(w, b) = - \displaystyle\sum_{x_i∈M}y_i x_i$
$▽_bL(w, b) = - \displaystyle\sum_{x_i∈M}y_i$
随机选择一个误分类点对w和b进行更新:
$w←w+ηy_ix_i$
$b←b+ηy_i$
更新w和b的几何意义可以理解为让分离超平面向误分类点的方向移动, 减少二者之间的距离, 甚至让分离超平面”飘过”误分类点使其正确分类.

3. 感知机学习算法

3.1 原始形式

输入: 线性可分的训练数据集 $T = \lbrace (x_1, y_1), ... , (x_N, y_N)\rbrace$ 和学习率η∈(0, 1)
输出: w, b; 感知机模型 $f(x) = sign(w·x + b)$
具体步骤:
(1) 随机选取初值 $w_0$ 和 $b_0$
(2) 在训练集中选取数据 $(x_i, y_i)$
(3) 如果 $y_i(w·x_i+b)≤0$ , 更新w和b:
$w←w+ηy_ix_i$
$b←b+ηy_i$
(4) 回到(2), 直到训练集中没有误分类点

3.2 收敛性

当训练数据集线性可分时, 感知机学习算法原始形式是收敛的, 但是可能存在很多解.
当训练数据集线性不可分时, 感知机学习算法不收敛, 迭代结果会发生震荡.

3.3 对偶形式

从w和b的更新方式( $w←w+ηy_ix_i$ , $b←b+ηy_i$ )中可以看到, 完全可以将w和b表示为实例 $x_i$ 和标记 $y_i$ 的线性组合.
$w =\displaystyle\sum_{j=i}^N α_i y_i x_i$ , $b = \displaystyle\sum_{i=1}^{N} α_i y_i$ , 其中 $α_i = n_iη$ ( $n_i$ 指的是第i个实例点由于误分而进行更新的次数).
从而感知机模型可以表示为:
$f(x) = sign(\displaystyle\sum_{j=1}^N α_j y_j x_j·x + b)$
最后对损失函数进行随机梯度下降处理, 得到最优的α和b即可.

3.3.1 对偶形式的算法描述

输入: 线性可分的训练数据集 $T = \lbrace (x_1, y_1), ... , (x_N, y_N)\rbrace$ 和学习率η∈(0, 1)
输出: α, b和感知机模型.
具体步骤:
(1) 令α=0, b=0
(2) 在训练集中选取数据 $(x_i, y_i)$
(3) 如果 $y_i (\displaystyle\sum_{j=1}^N α_j y_j x_j·x_i + b) ≤ 0$ , 更新 $α_i$ 和b:
$α_i ← α_i + η$
$b ← b + ηy_i$
(4) 转至(2)直到没有误分类数据

3.3.2 对偶的形式的优势

方便计算: 在对偶形式中训练示例仅以内积的形式出现, 从而可以预先把训练集中所有示例间的内积计算出来存到Gram矩阵中. $G = [x_i · x_j]_{N×N}$

YasinQiu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[ML] 感知机

综述面向的问题: 二分类问题输入: 实例的特征向量, x∈Rnx∈Rnx∈R^n 输出: 实例的类别, y={+1,−1}y={+1,−1}y = \lbrace+1, -1\rbrace 目标: 求出将数据进行线性划分的分离超平面方法: 损失函数 + 梯度下降1. 感知机模型f(x)=sign(w⋅x+b)f(x)=sign(w·x+b)f(x) = sign(w...
复制链接

扫一扫

专栏目录