机器学习笔记——感知机

最新推荐文章于 2022-08-25 15:13:37 发布

clvsit

最新推荐文章于 2022-08-25 15:13:37 发布

阅读量568

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43378396/article/details/87911782

版权

机器学习专栏收录该内容

33 篇文章 11 订阅

订阅专栏

感知机

感知机（perceptron）是二类分类的线性分类模型，于 1957 年由 Rosenblatt 提出，是神经网络与支持向量机的基础，其输入为实例的特征向量，输出为实例的类别，取 +1 和 -1 二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。

【过程】：

导入基于误分类的损失函数。
利用梯度下降法对损失函数进行极小化，求得感知机模型。

【优点】：简单而易于实现。

【形式】：

原始形式；
对偶形式。

感知机模型

感知机是一种线性分类模型，属于判别模型。

【假设空间】：定义在特征空间中的所有线性分类模型（linear classification model）或线性分类器（linear classifier），即函数集合 {f|f(x) = w.x + b}。

感知机学习策略

数据集的线性可分性

给定一个数据集
$T = {(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)}$
其中， $x_i \in \chi = R^n, y_i \in Y = \{+1, -1\}, i = 1,2,...,N$ ，如果存在某个超平面 S
$\cdot x + b = 0$

能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对所有 $y_i = +1$ 的实例，有 $\cdot x_i + b > 0$ ，对所有 $y_i = -1$ 的实例 i，有 $\cdot x_i + b < 0$ ，则称数据集 T 为线性可分数据集（linearly separable data set）；否则，称数据集 T 线性不可分。

感知机学习策略

假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。

为了找出这样的超平面，即确定感知机模型参数 w、b，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。

误分类点的总数：这样的损失函数不是参数 w、b 的连续可导函数，不易优化。
误分类点到超平面 S 的总距离：感知机所采用的策略。

感知机学习算法

感知机学习问题转化为求解损失函数 $-\sum_{x_i \in M}y_i(w * x_i + b)$ 的最优化问题，最优化的方法是随机梯度下降法。

原始形式

感知机学习算法是对以下最优化问题的算法。给定一个训练数据集
$T = {(x_i, y_i), (x_2, y_2), ..., (x_N, y_N)}$
其中， $x_i \in \chi \in R^n$ ， $y_i \in Y = \{-1, 1\}, i = 1,2,...,N$ ，求参数 w、b，使其为以下损失函数极小化问题的解
$min_{w,b}L(w, b) = - \sum_{x_i \in M}y_i(w * x_i + b)$
其中 M 为误分类点的集合。

感知机学习算法是误分类驱动的，具体采用随机下降梯度法（stochastic gradient descent）。

首先，任意选取一个超平面 $w_0, b_0$ ，通常选择 0。
然后用梯度下降法不断地极小化目标函数。

【注意】：极小化过程中不是一次使 M 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

假设误分类点集合 M 是固定的，那么损失函数 L(w, b) 的梯度由以下式子给出（对损失函数求偏导）。
$\nabla_wL(w, b) = -\sum_{x_i \in M}y_ix_i \\ \nabla_bL(w, b) = -\sum_{x_i \in M}y_i$

随机选取一个误分类点 $x_i, y_i)$ ，对 w，b 进行更新。
$\leftarrow w + \eta y_ix_i \\ b \leftarrow b + \eta y_i$
$\eta(0 \lt \eta \leq 1)$ 是步长，在统计学习中又称为学习率（learning rate）。这样，通过迭代可以期待损失函数 L(w, b) 不断减小，直到为 0。综上所述，得到如下算法。

【算法】：感知机学习算法的原始形式。

输入：训练数据集 $T = {(x_i, y_i), (x_2, y_2), ..., (x_N, y_N)}$ ，其中 $x_i \in \chi \in R^n$ ， $y_i \in Y = \{-1, 1\}, i = 1,2,...,N$ ；学习率 $\eta(0 \lt \eta \leq 1)$ 。
输出：w，b；感知机模型 f(x) = sign(w * x + b)。
过程：
1. 选取初值 $w_0, b_0$ ；
2. 在训练集中选取数据 $x_i, y_i)$ ；
3. 如果 $y_i(w * x_i + b) \leq 0$
  $\leftarrow w + \eta y_ix_i \\ b \leftarrow b + \eta y_i$
4. 转至（2），直至训练集中没有误分类点。

【说明】：当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整 w、b 的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该误分类点使其被正确分类。

代码实现

def percerptron(x, y, step=1):
    # 初始化权值 w 和偏置 b
    w, b = np.zeros(x.shape[1]), 0
    
    # 当权值和偏置为 0 时，任何点都为误分类点
    error_point_index = 0
    
    while True:
        is_flag = False
        
        # 更新权值 w 和偏置 b
        w += step * x[error_point_index] * y[error_point_index]
        b += step * y[error_point_index]
        
        # 继续遍历寻找误分类点
        for i in range(0, x.shape[0]):
            fx = np.dot(w, x[i]) + b
            if -y[i] * fx > 0:
                error_point_index = i
                is_flag = True
                break
                
        # 没有找到误分类点即退出循环
        if not is_flag:
            break
    
    return (w, b)