感知器算法

丰。。

已于 2023-03-29 21:20:00 修改

阅读量1k

点赞数 1

分类专栏：机器学习数学基础机器学习笔记文章标签：算法机器学习深度学习

于 2023-03-08 13:24:44 首次发布

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/129401575

版权

机器学习笔记同时被 2 个专栏收录

84 篇文章 4 订阅

订阅专栏

机器学习数学基础

23 篇文章 1 订阅

订阅专栏

研究背景

在文献《The perceptron: A probabilistic model for information storage and organization in the brain》中，Rosenblatt首次提出了感知器模型，并利用它来模拟神经元的信息存储和组织功能。

在论文《The perceptron: A perceiving and recognizing automaton》中，Rosenblatt对感知器算法进行了深入的研究和分析，提出了感知器的学习规则，并证明了感知器的收敛性。

在文献《An analysis of single-layer networks in unsupervised feature learning》中，Erhan等人对感知器的升级版本——自动编码器进行了研究，并发现自动编码器具有学习特征表示的能力，为后来深度学习的发展奠定了基础。

在论文《Perceptron training algorithm for pattern classification》中，Fu等人提出了一种改进的感知器训练算法，能够更好地处理多类别分类问题。

在文献《Convergence of perceptron-like learning algorithms》中，Littlestone和Warmuth证明了感知器算法和其它感知器类算法的收敛性和复杂度。

在论文《Neural network classifiers with incremental learning based on perceptron algorithm》中，Wang等人提出了一种基于感知器算法的增量学习神经网络分类器，能够快速适应新数据和新类别。

感知器算法原理说明

感知器是一种二分类的线性分类算法，其原理基于神经元的工作原理。感知器将输入数据通过加权求和的方式映射到一个输出，然后根据输出的结果进行分类。

具体来说，给定一个训练集 $D={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，其中 $x_i$ 是一个 $m$ 维向量，表示第 $i$ 个样本的特征， $y_i\in {-1,1}$ 是该样本的标签。感知器的目标是找到一个权重向量 $w$ ，使得对于所有样本 $x_i,y_i)$ ，有：

在这里插入图片描述

其中 $w\cdot x_i$ 表示 $w$ 和 $x_i$ 的内积， $b$ 是一个常数，称为偏置项。上述式子可以简化为：

$y_i(w\cdot x_i+b)>0$

即对于正确分类的样本，其预测值与真实值之积大于零。

感知器的训练过程是一个迭代的过程，每次迭代通过更新权重向量 $w$ 和偏置项 $b$ 来逐步提高模型的准确率。具体来说，在每一轮迭代中，从训练集中选取一个错分类的样本 $x_i,y_i)$ ，然后按以下公式更新 $w$ 和 $b$ ：

$w=w+\eta y_ix_i$

$b=b+\eta y_i$

其中 $\eta$ 是学习率，控制着每次更新的步长。这个过程会一直重复，直到所有样本都被正确分类或达到预设的迭代次数。

需要注意的是，感知器算法只能处理线性可分的数据集。如果数据集不是线性可分的，算法会一直迭代下去而无法停止。此外，感知器还存在多个权重向量和偏置项的解，因此不同的初始权重和偏置可能会导致不同的结果。

感知器算法公式推导

感知器算法的公式推导可以从定义开始，假设我们有一个二分类的数据集 $D={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，其中 $x_i$ 是一个 $m$ 维向量，表示第 $i$ 个样本的特征， $y_i\in {-1,1}$ 是该样本的标签。我们的目标是找到一个超平面 $w\cdot x+b=0$ 将数据集分为两类。

假设我们已经得到了一个权重向量 $w$ 和偏置项 $b$ ，我们可以将其代入超平面方程中，得到样本 $x_i$ 距离超平面的距离：

$\frac{|w\cdot x_i+b|}{|w|}$

其中 $∣ w ∣$ 表示向量 $w$ 的模长。我们希望距离正确分类的样本越远越好，因此可以定义感知器的损失函数为：

$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$

其中 $M$ 是被错误分类的样本集合。对于正确分类的样本， $y_i(w\cdot x_i+b)>0$ ，所以损失函数取值为负数。而对于错误分类的样本， $y_i(w\cdot x_i+b)<0$ ，损失函数取值为正数。我们的目标是最小化损失函数，使得所有样本都被正确分类。

接下来，我们使用随机梯度下降算法来优化损失函数。在每次迭代中，我们随机选择一个错误分类的样本 $x_i,y_i)$ ，然后按照以下公式更新 $w$ 和 $b$ ：

$w=w+\eta y_ix_i$

$b=b+\eta y_i$

其中 $\eta$ 是学习率，控制着每次更新的步长。这个过程会一直重复，直到所有样本都被正确分类或达到预设的迭代次数。

可以证明，如果数据集是线性可分的，那么感知器算法一定会收敛，得到一个能够将数据集分为两类的超平面。但如果数据集不是线性可分的，算法会一直迭代下去而无法停止。此外，感知器还存在多个权重向量和偏置项的解，因此不同的初始权重和偏置可能会导致不同的结果。

下面我们来推导感知器算法的更新公式。首先定义一个样本点 $x_i, y_i)$ 的损失函数为：

$L_i(w,b)=-y_i(w\cdot x_i+b)$

如果这个样本点被正确分类，即 $y_i(w\cdot x_i+b)>0$ ，那么这个样本点的损失函数为0。如果这个样本点被错误分类，即 $y_i(w\cdot x_i+b)\leq 0$ ，那么这个样本点的损失函数就是 $-y_i(w\cdot x_i+b)$ 。

为了最小化感知器的损失函数，我们需要对所有被错误分类的样本点 $x_i, y_i)$ 更新权重 $w$ 和偏置 $b$ 。假设当前迭代到第 $t$ 次，我们选取的样本点为 $x_i, y_i)$ ，那么在这次迭代中，我们需要将 $w$ 和 $b$ 更新为：

$w_{t+1} = w_t + \eta y_i x_i$

$b_{t+1} = b_t + \eta y_i$

其中， $\eta$ 是学习率， $w_t$ 和 $b_t$ 是上一次迭代得到的权重和偏置。这个更新规则的含义是：如果一个样本点 $x_i, y_i)$ 被错误分类，那么我们就沿着它的负梯度方向更新权重和偏置，使得这个样本点离超平面更近，从而使得它被正确分类。

在实际应用中，感知器算法往往需要多次迭代才能得到较好的结果。我们可以设置一个最大迭代次数或者一个阈值，当达到这个条件时就停止迭代。在每次迭代中，我们可以随机选取一个错误分类的样本点来更新权重和偏置，或者按照顺序遍历所有的样本点来更新权重和偏置。无论是哪种更新方式，最终的结果都是将数据集分为两类的超平面。

代码示意

import numpy as np

class Perceptron:
    def __init__(self, learning_rate=0.1, max_iterations=100):
        self.learning_rate = learning_rate
        self.max_iterations = max_iterations

    def fit(self, X, y):
        # 添加截距项
        X = np.insert(X, 0, 1, axis=1)
        self.weights = np.zeros(X.shape[1])
        for iteration in range(self.max_iterations):
            for i in range(X.shape[0]):
                if y[i] * np.dot(X[i], self.weights) <= 0:
                    self.weights += self.learning_rate * y[i] * X[i]

    def predict(self, X):
        # 添加截距项
        X = np.insert(X, 0, 1, axis=1)
        predictions = np.sign(np.dot(X, self.weights))
        return predictions