《统计学习方法》第二章感知机习题

Hilbob

已于 2022-11-18 15:27:25 修改

阅读量803

点赞数 1

分类专栏：统计学习方法文章标签：算法感知机

于 2022-11-12 22:45:01 首次发布

本文链接：https://blog.csdn.net/qq_42714262/article/details/127822950

版权

统计学习方法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

2.1 验证感知机为什么不能表示异或

设有样本点x1=(0,0),x2=(0,1),x3=(1,0),x4=(1,1)，则由异或的性质得各样本点的输出为y1=0,y2=1,y3=1,y4=0，所以x1和x4为负样本点，x2和x3为正样本点。由正负样本点的分布很容易得知样本不是线性可分的，因此不能用感知机表示。

2.2 构建从训练数据集求解感知机模型的例子

数据集选取sklearn自带的load_iris数据集。Iris数据集在模式识别研究领域应该是最知名的数据集了，有很多文章都用到这个数据集。这个数据集里一共包括150行记录，其中前四列为花萼长度，花萼宽度，花瓣长度，花瓣宽度等4个用于识别鸢尾花的属性，第5列为鸢尾花的类别（包括Setosa，Versicolour，Virginica三类）。也即通过判定花萼长度，花萼宽度，花瓣长度，花瓣宽度的尺寸大小来识别鸢尾花的类别。再这里，我们选取花瓣长度，花瓣宽度作为训练数据，并选用Setosa，Versicolour构造y标签。

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

iris=load_iris()
df=pd.DataFrame(iris.data, columns=iris.feature_names)
df['label']=iris.target

# 从iris中构建数据集，这里选用petal字段的数据,即取第2，3和最后一列的前100条数据
data=np.array(df.iloc[:100, [2, 3, -1]])
X, Y=data[:, :-1], data[:, -1]
Y=np.array([1 if e==1 else -1 for e in Y])

class Perceptron:
    def __init__(self, x_data):
        self.w = np.zeros(len(x_data[0]))# w维度与x维度相同
        self.b = 0 # 偏置
        self.n = 0.1 # 学习率

    def sign(self, x):
        y=np.dot(x, self.w)+self.b
        return y

    def train(self,x,y):
        while True:
            false_count = 0
            for i in range(len(x)):
                # 误分类点，需要更新权重
                if y[i]*self.sign(x[i])<=0:
                    self.w = self.w + self.n*np.dot(y[i], x[i])
                    self.b = self.b + self.n*y[i]
                    false_count += 1
            # 没有误分类点就退出
            if false_count==0:
                break

p = Perceptron(X)
p.train(X, Y)
print(p.w, p.b)
# 直线是w1x1+w2x2+b=0
x1=np.linspace(1, 4, 20)  # 生成20个横坐标，是从1-4的等差序列
x2=-(p.w[0]*x1+p.b)/p.w[1]  # 根据直线计算纵坐标
plt.plot(x1, x2, color='red', alpha=0.8, linestyle='-.')

plt.scatter(X[:50, 0], X[:50, 1], label='0')
plt.scatter(X[50:, 0], X[50:, 1], label='1')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend()
plt.show()