感知机算法原理及代码实现

最新推荐文章于 2024-07-18 22:17:35 发布

鼹鼠的胡须

最新推荐文章于 2024-07-18 22:17:35 发布

阅读量3.7k

点赞数 3

分类专栏：机器学习文章标签：博客算法

本文链接：https://blog.csdn.net/qq_23968185/article/details/52494943

版权

机器学习专栏收录该内容

22 篇文章 3 订阅

订阅专栏

之所以要写这篇博客，是因为前几天在实现AdaBoost方法的过程中，想把感知机模型作为基分类器，但编码过程中才发现最原始的感知机学习算法仅仅对于线性可分的训练集是收敛的，而我所期望的基学习器要对线性不可分的训练集也是收敛的（或者说我希望的是数据集在线性不可分的情形下，通过有限次的迭代能使算法能够几乎分类准确）。通过这个小波折发现以前看书还是太囫囵吞枣了！

1、感知机算法原理

感知机是二分类的线性模型，其判别函数为：

f (x) = s i g n (w \cdot x + b)

$f(x)=sign(w\cdot x+b)$
感知机模型对应于特征空间中的分离超平面

w⋅x+b=0 $w\cdot x+b=0$ .

感知机学习的策略是极小化损失函数：

min w, b L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$\min_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
其几何意义是损失函数对应于误分类点到分离超平面的总距离。我们可以基于随机梯度下降法对损失函数进行极小化。

2、Matlab代码实现

function [w, me] = perceptron(x, y)

[m, n] = size(x);
x = [ones(m, 1), x];           %把输入数据写成增广矩阵的形式
w = rand(n + 1, 1);            %增广权值向量
alpha = 1;                     %学习率
error = 0;                     %误差
eps = 0.01;
%T = 40;                        %迭代次数

while( 1 )
    o = sign(x * w);           %输出,需要注意的是matlab中sign（0）=0
    o(o==0,:)=-1;
    er =error;
    me = o .* y;               %输出lambel和目标label的点乘向量
    mc = find(me == -1);       %误分类样本点
    error = -1 * sum(x(mc, :) * w .* y(mc, :));
    if(size(mc,1) == 0||abs(error-er)<eps)
        break;
    end
    j = mc(1,:);
    w = w + alpha * y(j, :)*(x(j, :))';          %梯度下降法更新权值
%   for i = 1:size(mc, 1)
%      j = mc(i,:);
%      w = w + alpha * y(j, :)*(x(j, :))'    %梯度下降法更新权值
%   end  
    %T = T-1;
end

%%如果特征向量是二维的，画图
if(n==2)
    po = x(y==1, 2:end);
    scatter(po(:, 1),po(:, 2));
    hold on;
    ne = x(y==-1, 2:end);
    scatter(ne(:, 1),ne(:,2),'*');
    hold on;
    x = 1:.5:10;
    y = 1/w(3)*(-1*w(1)-x.*w(2));
    plot(x,y);
end