用感受器算法解决墨渍分类问题

  • 问题描述

平面上有两摊墨渍,它们的颜色分别是黄色和蓝色,墨渍分类问题就是是根据点的坐标,判断其染上的颜色。从Sklearn的数据库中获取墨渍数据,每条数据是平面上的一个点,特征组(即特征向量)为该点的坐标,标签为该点的颜色,0表示黄色1表示蓝色.

  • 实验目的

1、调用用Sklearn的make_blobs()读取m个墨渍数据。实验目的

2、调用Sklearn的train_test_split(),划分训练数据和测试数据分别为test_size=0.5, 0.4, 0.3, 0.2。

3、实现感知器类,在训练数据上训练感知器,输出模型的参数。用训练好的模型在测试数据上进行测试,输出模型的Accuracy。

4、分别画出训练数据、测试数据上的分离线。

  • 实验内容

包括数据导入、数据预处理、算法描述、主要代码。

  1. 数据导入

# 生成墨迹
plt.figure(1)
#make_blobs函数是为聚类产生数据集,产生一个数据集和相应的标签
#n_samples:样本,默认值为100;centers:样本的标签,2;
# n_features:特征;cluster_std:方差;random_state:随机生成器的种子,给定值后,每次生成的数据集为固定值
#每一条训练数据中都含有特征和标签
X, y = make_blobs(n_samples=100, centers=2, n_features=2, cluster_std=0.6, random_state=0)
plt.plot(X[:, 0][y == 1], X[:, 1][y == 1], "bs", ms=3)
plt.plot(X[:, 0][y == 0], X[:, 1][y == 0], "yo", ms=3)
plt.show()

2.数据预处理

用感知器类去解决墨渍问题:

import numpy as np
class Perceptron:
    def fit(self, X, y): #生成训练模型,训练数据
        m, n = X.shape                    # X  m*n矩阵
        w = np.zeros((n, 1))              # w  n*1列向量
        b = 0
        done = False
        while not done:                  #done==True 结束
            done = True
            for i in range(m):
                x = X[i].reshape(1, -1)        # x  1*n行向量
                if y[i] * (x.dot(w) + b) <= 0: #样本(x[i],y[i])位于直线错误一侧
                    w = w + y[i] * x.T         # 更新 w
                    b = b + y[i]               # 更新 b
                    done = False
        self.w = w    #得到模型的参数 w
        self.b = b    #模型参数 b
    def predict(self, X):     #预测x的标签
        return np.sign(X.dot(self.w) + self.b)  #预测标签 +1或-1

3.算法描述

Step1:使用sklearn工具库中的make_blobs函数为聚类产生数据集,产生一个数据集和相应的标签。并生成相应的墨渍。

Step2:生成训练模型和训练数据。使用感知器算法生成训练模型,定义一个Perceptron类,提供两个成员函数:fit函数和predict函数;函数fit的功能是训练模型并储存训练得到的参数;函数predict的功能是用训练好的模型对给定数据进行预测。

Step3:生成测试模型和测试数据。

Step4:得出结论。

4.主要代码

1、感知器算法(Perceptron.py)

import numpy as np
class Perceptron:
    def fit(self, X, y): #生成训练模型,训练数据
        m, n = X.shape                    # X  m*n矩阵
        w = np.zeros((n, 1))              # w  n*1列向量
        b = 0
        done = False
        while not done:                  #done==True 结束
            done = True
            for i in range(m):
                x = X[i].reshape(1, -1)        # x  1*n行向量
                if y[i] * (x.dot(w) + b) <= 0: #样本(x[i],y[i])位于直线错误一侧
                    w = w + y[i] * x.T         # 更新 w
                    b = b + y[i]               # 更新 b
                    done = False
        self.w = w    #得到模型的参数 w
        self.b = b    #模型参数 b
    def predict(self, X):     #预测x的标签
        return np.sign(X.dot(self.w) + self.b)  #预测标签 +1或-1

  1. 墨渍分类(Ink.py)

# 墨渍数据从Sklearn获取
from sklearn.datasets._samples_generator import make_blobs
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from perceptron import Perceptron  # 感知器类

# 生成墨迹
plt.figure(1)
#make_blobs函数是为聚类产生数据集,产生一个数据集和相应的标签
#n_samples:样本,默认值为100;centers:样本的标签,2;
# n_features:特征;cluster_std:方差;random_state:随机生成器的种子,给定值后,每次生成的数据集为固定值
#每一条训练数据中都含有特征和标签
X, y = make_blobs(n_samples=100, centers=2, n_features=2, cluster_std=0.6, random_state=0)
plt.plot(X[:, 0][y == 1], X[:, 1][y == 1], "bs", ms=3)
plt.plot(X[:, 0][y == 0], X[:, 1][y == 0], "yo", ms=3)
plt.show()

#调用训练模型,训练数据
y = 2 * y - 1  # 标签  -1或+1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=5)  # 训练集、测试集划分

model = Perceptron()  # 声明Perceptron实例
model.fit(X_train, y_train)  # 训练
w = model.w  # model 的参数 w
b = model.b  # model 的参数 b
print('w=', w)
print('b=', b)

# 生成训练数据
x0 = np.linspace(-1, 5, 200)  # 在[-1,5]均匀取200个点
line = -w[0] / w[1] * x0 - b / w[1]  # 分离线 已知w,b,x0,求x1,  w0x0+w1x1+b=0 ,  x1即line

# draw 对训练数据集进行分类,两类分离线
plt.figure(2)
plt.plot(X_train[:, 0][y_train == 1], X_train[:, 1][y_train == 1] + 0.1, "bs", ms=3)#markersize,简写为 ms:定义标记的大小。
plt.plot(X_train[:, 0][y_train == -1], X_train[:, 1][y_train == -1] - 0.1, "yo", ms=3)#bs:蓝色正方形;yo:黄色实心圆
plt.plot(x0, line)
plt.show()

# draw 对测试数据集进行分类,两类分离线
plt.figure(3)
plt.plot(X_test[:, 0][y_test == 1], X_test[:, 1][y_test == 1], "bs", ms=3)  # 正例蓝色点
plt.plot(X_test[:, 0][y_test == -1], X_test[:, 1][y_test == -1], "yo", ms=3)  # 负例黄色点
plt.plot(x0, line)
plt.show()

y_pred = model.predict(X_test)  # 测试
accuracy = accuracy_score(y_test, y_pred)  # 测试结果的评价 sklearn.metrics.accuracy_score
print("accuracy= {}".format(accuracy))  # 输出正确率

  • 实验结果及分析

(1)训练数据和测试数据为test_size=0.5。

1、训练数据和测试数据的区分效果对比:

2、输出模型的参数w,b,Accuracy:

(2)划分训练数据和测试数据为test_size=0.4。

1、训练数据和测试数据的区分效果对比:

2、输出模型的参数w,b,Accuracy:

(3)划分训练数据和测试数据为test_size=0.3。

1、训练数据和测试数据的区分效果对比:

2、输出模型的参数w,b,Accuracy:

(4)划分训练数据和测试数据为test_size=0.2。

1、训练数据和测试数据的区分效果对比:

2、输出模型的参数w,b,Accuracy:

  • 遇到的问题和解决方法

  1.  根据以上实验所得,模型虽然在训练数据上预测的是完全正确的,但是划分训练数据和测试数据为test_size=0.4时,分离直线未能完全分离墨渍的两个特征,从而出现了误差,这也说明对模型的效果的度量应该在测试数据中进行,在测试数据中的准确率才是对模型正确的度量。
  2. 这说明使用监督式学习算法效果的度量方法,用模型h对x的标签值做预测时,预测值与真实情况可能存在误差,会产生过度拟合。
  3. 如何预防过度拟合:

通过对模型进行假设,从而降低过度拟合;

使用正则化算法避免过度拟合。

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小辉在线

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值