用感受器算法解决墨渍分类问题

小辉在线

已于 2022-03-30 15:09:42 修改

阅读量2.3k

点赞数 2

分类专栏：机器学习文章标签：数据挖掘 python

于 2022-03-26 20:04:34 首次发布

本文链接：https://blog.csdn.net/m0_63845261/article/details/123762063

版权

机器学习专栏收录该内容

4 篇文章 3 订阅

订阅专栏

问题描述

平面上有两摊墨渍，它们的颜色分别是黄色和蓝色，墨渍分类问题就是是根据点的坐标，判断其染上的颜色。从Sklearn的数据库中获取墨渍数据，每条数据是平面上的一个点，特征组（即特征向量）为该点的坐标，标签为该点的颜色，0表示黄色，1表示蓝色.

实验目的

1、调用用Sklearn的make_blobs()读取m个墨渍数据。实验目的

2、调用Sklearn的train_test_split（），划分训练数据和测试数据分别为test_size=0.5, 0.4, 0.3, 0.2。

3、实现感知器类，在训练数据上训练感知器，输出模型的参数。用训练好的模型在测试数据上进行测试，输出模型的Accuracy。

4、分别画出训练数据、测试数据上的分离线。

实验内容

包括数据导入、数据预处理、算法描述、主要代码。

数据导入

# 生成墨迹
plt.figure(1)
#make_blobs函数是为聚类产生数据集，产生一个数据集和相应的标签
#n_samples:样本，默认值为100；centers：样本的标签，2；
# n_features:特征；cluster_std:方差；random_state:随机生成器的种子，给定值后，每次生成的数据集为固定值
#每一条训练数据中都含有特征和标签
X, y = make_blobs(n_samples=100, centers=2, n_features=2, cluster_std=0.6, random_state=0)
plt.plot(X[:, 0][y == 1], X[:, 1][y == 1], "bs", ms=3)
plt.plot(X[:, 0][y == 0], X[:, 1][y == 0], "yo", ms=3)
plt.show()

2.数据预处理

用感知器类去解决墨渍问题：

import numpy as np
class Perceptron:
    def fit(self, X, y): #生成训练模型，训练数据
        m, n = X.shape                    # X m*n矩阵
        w = np.zeros((n, 1))              # w n*1列向量
        b = 0
        done = False
        while not done:                  #done==True 结束
            done = True
            for i in range(m):
                x = X[i].reshape(1, -1)        # x 1*n行向量
                if y[i] * (x.dot(w) + b) <= 0: #样本(x[i],y[i])位于直线错误一侧
                    w = w + y[i] * x.T         # 更新 w
                    b = b + y[i]               # 更新 b
                    done = False
        self.w = w    #得到模型的参数 w
        self.b = b    #模型参数 b
    def predict(self, X):     #预测x的标签
        return np.sign(X.dot(self.w) + self.b) #预测标签 +1或-1

3.算法描述

Step1:使用sklearn工具库中的make_blobs函数为聚类产生数据集，产生一个数据集和相应的标签。并生成相应的墨渍。

Step2:生成训练模型和训练数据。使用感知器算法生成训练模型，定义一个Perceptron类，提供两个成员函数：fit函数和predict函数；函数fit的功能是训练模型并储存训练得到的参数；函数predict的功能是用训练好的模型对给定数据进行预测。

Step3：生成测试模型和测试数据。

Step4：得出结论。

4.主要代码

1、感知器算法（Perceptron.py）

墨渍分类（Ink.py）

# 墨渍数据从Sklearn获取
from sklearn.datasets._samples_generator import make_blobs
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from perceptron import Perceptron # 感知器类

# 生成墨迹
plt.figure(1)
#make_blobs函数是为聚类产生数据集，产生一个数据集和相应的标签
#n_samples:样本，默认值为100；centers：样本的标签，2；
# n_features:特征；cluster_std:方差；random_state:随机生成器的种子，给定值后，每次生成的数据集为固定值
#每一条训练数据中都含有特征和标签
X, y = make_blobs(n_samples=100, centers=2, n_features=2, cluster_std=0.6, random_state=0)
plt.plot(X[:, 0][y == 1], X[:, 1][y == 1], "bs", ms=3)
plt.plot(X[:, 0][y == 0], X[:, 1][y == 0], "yo", ms=3)
plt.show()

#调用训练模型，训练数据
y = 2 * y - 1 # 标签 -1或+1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=5) # 训练集、测试集划分

model = Perceptron() # 声明Perceptron实例
model.fit(X_train, y_train) # 训练
w = model.w # model 的参数 w
b = model.b # model 的参数 b
print('w=', w)
print('b=', b)

# 生成训练数据
x0 = np.linspace(-1, 5, 200) # 在[-1,5]均匀取200个点
line = -w[0] / w[1] * x0 - b / w[1] # 分离线已知w,b，x0，求x1, w0x0+w1x1+b=0 , x1即line

# draw 对训练数据集进行分类，两类分离线
plt.figure(2)
plt.plot(X_train[:, 0][y_train == 1], X_train[:, 1][y_train == 1] + 0.1, "bs", ms=3)#markersize，简写为 ms：定义标记的大小。
plt.plot(X_train[:, 0][y_train == -1], X_train[:, 1][y_train == -1] - 0.1, "yo", ms=3)#bs:蓝色正方形；yo:黄色实心圆
plt.plot(x0, line)
plt.show()

# draw 对测试数据集进行分类，两类分离线
plt.figure(3)
plt.plot(X_test[:, 0][y_test == 1], X_test[:, 1][y_test == 1], "bs", ms=3) # 正例蓝色点
plt.plot(X_test[:, 0][y_test == -1], X_test[:, 1][y_test == -1], "yo", ms=3) # 负例黄色点
plt.plot(x0, line)
plt.show()

y_pred = model.predict(X_test) # 测试
accuracy = accuracy_score(y_test, y_pred) # 测试结果的评价 sklearn.metrics.accuracy_score
print("accuracy= {}".format(accuracy)) # 输出正确率

实验结果及分析

(1)训练数据和测试数据为test_size=0.5。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

(2)划分训练数据和测试数据为test_size=0.4。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

(3)划分训练数据和测试数据为test_size=0.3。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

(4)划分训练数据和测试数据为test_size=0.2。

1、训练数据和测试数据的区分效果对比：

2、输出模型的参数w,b,Accuracy:

遇到的问题和解决方法

根据以上实验所得，模型虽然在训练数据上预测的是完全正确的，但是划分训练数据和测试数据为test_size=0.4时，分离直线未能完全分离墨渍的两个特征，从而出现了误差，这也说明对模型的效果的度量应该在测试数据中进行，在测试数据中的准确率才是对模型正确的度量。
这说明使用监督式学习算法效果的度量方法，用模型h对x的标签值做预测时，预测值与真实情况可能存在误差，会产生过度拟合。
如何预防过度拟合：

通过对模型进行假设，从而降低过度拟合；

使用正则化算法避免过度拟合。

小辉在线

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
2
评论
用感受器算法解决墨渍分类问题

问题描述平面上有两摊墨渍，它们的颜色分别是黄色和蓝色，墨渍分类问题就是是根据点的坐标，判断其染上的颜色。从Sklearn的数据库中获取墨渍数据，每条数据是平面上的一个点，特征组（即特征向量）为该点的坐标，标签为该点的颜色，0表示黄色，1表示蓝色. 实验目的 1、调用用Sklearn的make_blobs()读取m个墨渍数据。实验目的2、调用Sklearn的train_test_split（），划分训练数据和测试数据分别为test_size=0.5, 0.4, 0.3, 0....
复制链接

扫一扫