感知器算法c语言,一文搞懂感知机算法

什么是感知机

感知机(preceptron)是线性分类的二分类模型,输入为实例的特征向量,输出为实例的类别,分别用 1 和 -1 表示。感知机将输入空间(特征空间)中的实例划分为正负两类分离的超平面,旨在求出将训练集进行线性划分的超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得最优解。感知机是神经网络和支持向量机的基础。

感知机模型

感知机的函数公式为:

math?formula=f(x)%20%3D%20sign(w%5Ccdot%20x%20%2B%20b)

其中, w和 b 为感知机模型参数,

math?formula=w%20%5Cin%20R%5En叫做权值或者权值向量,

math?formula=b%20%5Cin%20R 叫做偏差,

math?formula=w%20%5Ccdot%20x表示 w 和 x 的内积, sign 是符号函数,即:

math?formula=sign%5Cleft(%20x%5Cright)%20%3D%5Cbegin%7Bcases%7D1%2Cx%5Cgeq%200%5C%5C%20-1%2Cx%20%3C0%5Cend%7Bcases%7D

感知机的假设空间是定义在特征空间中所有线性分类模型的函数集合,即

math?formula=%5C%7Bf%7Cf(x)%20%3D%20w%20%5Ccdot%20x%20%2B%20b%5C%7D.

感知机的几何解释:线性方程

math?formula=w%20%5Ccdot%20x%20%2B%20b%20%3D%200对应特征空间

math?formula=R%5En中的一个超平面 S,其中 w 是超平面的法向量,b 是超平面的截距。该超平面将特征空间分为两个部分,将特征向量分为正负两类。因此,超平面 S 成为分离超平面。

c91087e6e1ea

image

感知机学习策略

假设训练数据集是线性可分的,感知机的学习目标就是找到能够将正负实例点完全分开的超平面,即确定感知机模型参数 w 和 b,因此就是确定(经验)损失函数并求损失函数的最优解,即最小化。

感知机

math?formula=sign(w%5Ccdot%20x%20%2B%20b)学习的损失函数 定义为:

math?formula=L(w%2C%20b)%20%3D%20-%20%5Csum_%7Bx%20%5Cin%20M%7Dy_i(w%20%5Ccdot%20x_i%20%2B%20b)%20%E5%85%AC%E5%BC%8F(1)

下面给出推导:

1.首先写入输入空间

math?formula=R%5En中任意点

math?formula=x_0到超平面 S 的距离:

math?formula=%5Cdfrac%20%7B1%7D%7B%5Cleft%5C%7C%20w%5Cright%5C%7C%20%7D%5Cleft%7C%20w%5Ccdot%20x_0%20%2Bb%5Cright%7C

其中,

math?formula=%5Cleft%5C%7C%20w%5Cright%5C%7C是 w 的 L2 范数。

2.当

math?formula=w%20%5Ccdot%20x_i%20%2B%20b%20%3E%200时,

math?formula=y_i%20%3D%20-1, 而当

math?formula=w%20%5Ccdot%20x_i%20%2B%20b%20%3C0时,

math?formula=y_i%20%3D%201。因此,对于误分类的数据

math?formula=(x_i%2C%20y_i)来说,

math?formula=-%20y_i(w%20%5Ccdot%20x_i%20%2B%20b)%20%3E%200成立。

3.另外,误差分类点到超平面 S 的距离是

math?formula=%5Cdfrac%20%7B1%7D%7B%5Cleft%5C%7C%20w%5Cright%5C%7C%20%7Dy_i%20(w%5Ccdot%20x_i%20%2Bb)

设 M 为超平面 S 的误分类点的集合,则所有误分类点到超平面 S 的总距离为:

math?formula=%5Cdfrac%20%7B1%7D%7B%5Cleft%5C%7C%20w%5Cright%5C%7C%20%7D%5Csum_%7Bx%20%5Cin%20M%7Dy_i(w%20%5Ccdot%20x_i%20%2B%20b)

不考虑

math?formula=%5Cdfrac%20%7B1%7D%7B%5Cleft%5C%7C%20w%5Cright%5C%7C%20%7D,则得到感知机的损失函数 L(w, b),即公式(1)

显然,损失函数 L(w, b)是非负的。如果有所分类都正确,则损失函数值为 0。而且,分类越正确,则误分类的点离超平面越近,损失函数值越小。

因此,一个特定的样本的损失函数,在误分类时时参数 w, b 的线性函数,正确分类时时 0,可以得出给定训练数据集 T,损失函数 L(w, b)是 w,b 的连续可导函数。

感知机学习算法

下面我们来看感知机的学习算法。给定一个训练数据集

math?formula=T%3D%5C%7B(x_1%2Cy_1)%2C%20(x_2%2C%20y_2)%2C%20...%2C%20(x_N%2C%20y_N)%5C%7D

感知机的算法是误分类驱动的,具体采用 随机梯度下降法(stochastic gradient descent). 在极小化目标函数的过程中,并不是一次使 M 中所有误分类的点梯度下降,而是每次随机一个误分类的点使其梯度下降。

具体步骤为:

1.假设误分类点的集合为 M,那么损失函数L(w, b)的梯度为:

math?formula=%5Cnabla_wL(w%2C%20b)%20%3D%20-%20%5Csum_%7Bx%20%5Cin%20M%7Dy_ix_i

math?formula=%5Cnabla_bL(w%2C%20b)%20%3D%20-%20%5Csum_%7Bx%20%5Cin%20M%7Dy_i

2.随机选取一个误分类的点

math?formula=(x_i%2C%20y_i),对 w, b 更新:

math?formula=w%20%5Cleftarrow%20w%20%2B%20%5Ceta%20y_ix_i

math?formula=b%20%5Cleftarrow%20b%20%2B%20%5Ceta%20y_i

式中

math?formula=%5Ceta(0%3C%5Ceta%5Cleq1)是步长,又称为学习率(learning_rate),这样,通过迭代可以使损失函数不断减小,直到为 0.

当训练数据集线性可分的时候,感知机学习算法是收敛的,并且存在无穷多个解,解会由于不同的初值或不同的迭代顺序不同而有所不同。

实战

下面使用 sklearn 包中感知机来训练和分类 Iris(鸢尾花) 数据集。

from sklearn import datasets

import pandas as pd

from sklearn import Perceptron

from sklearn.cross_validation import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score

from sklearn.utils import shuffle

iris = datasets.load_iris()

先导入数据,然后使用shuffle打乱数据顺序,

X, y = shuffle(iris.data, iris.target,random_state=7)

接下来分割训练集和测试集:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7)

然后进行样本特征的标准化缩放,为了让特征同步变化。标准化缩放就是将样本特征转化成均值为 0 ,方差为 1 的正态分布。

sc_X = StandardScaler()

X_train_std = sc_X.fit_transform(X_train)

X_test_std = sc_X.fit_transform(X_test)

创建感知机模型,进行训练,最终对测试集预测结果。

model = Perceptron()

model.fit(X_train_std, y_train)

y_pred = model.predict(X_test_std)

训练完成以后评价一下训练结果,

print ("Accuracy score on test data: {:.4f}".format(accuracy_score(y_test, y_pred)))

print ("F-score on test data: {:.4f}".format(fbeta_score(y_test, y_pred, beta = 0.5,average='weighted')))

结果如下:

c91087e6e1ea

image

效果不太好,我们尝试用网格搜索法来优化一下,设置好参数集,代码如下:

from sklearn.model_selection import GridSearchCV

from sklearn.metrics import make_scorer

from sklearn.metrics import fbeta_score, accuracy_score

clf = Perceptron(random_state=7)

parameters = {'eta0':[0.1,1,10], 'max_iter':[30,40,50]}

scorer = make_scorer(fbeta_score, beta=0.5, average='weighted')

#在分类器上使用网格搜索,使用'scorer'作为评价函数

grid_obj = GridSearchCV(clf, parameters, scoring=scorer)

grid_obj.fit(X_train_std, y_train)

# 得到estimator

best_clf = grid_obj.best_estimator_

# 使用没有调优的模型做预测

predictions = (clf.fit(X_train_std, y_train)).predict(X_test_std)

best_predictions = best_clf.predict(X_test_std)

最后我们将优化前和优化后的结果打印出来比较一下效果:

# 汇报调参前和调参后的分数

print ("\nUnoptimized model\n------")

print ("Accuracy score on test data: {:.4f}".format(accuracy_score(y_test, predictions)))

print ("F-score on test data: {:.4f}".format(fbeta_score(y_test, predictions, beta = 0.5,average='weighted')))

print ("\nOptimized Model\n------")

print ("Final accuracy score on the test data: {:.4f}".format(accuracy_score(y_test, best_predictions)))

print ("Final F-score on the test data: {:.4f}".format(fbeta_score(y_test, best_predictions, beta = 0.5,average='weighted')))

运行一下,得到下图:

c91087e6e1ea

image

最终可以看到,我们的模型预测效果已经有明显进步了。

如果你喜欢我的文章,欢迎扫码关注公众号:机器学习Club.聚焦机器学习,关注自我管理。

[图片上传失败...(image-d73933-1534854404075)]

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值