第二章-感知机

码侯烧酒

已于 2022-01-21 16:16:57 修改

阅读量392

点赞数

分类专栏：统计学习方法文章标签：机器学习

于 2021-06-07 00:00:18 首次发布

本文链接：https://blog.csdn.net/by6671715/article/details/117638951

版权

统计学习方法专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Minsky与Papert指出：感知机因为是线性模型，所以不能表示复杂的函数，如异或（XOR），验证感知机为什么不能表示异或。

答

因为异或逻辑线性不可分，证明如下：

训练集中包含4个点，其中正实例点为 $x_1=(1,0)^\mathrm{T}$ ， $x_2=(0,1)^\mathrm{T}$ ，负实例点为 $x_3=(1,1)^\mathrm{T}$ ， $x_4=(0,0)^\mathrm{T}$ 。假设存在感知机模型 $f(x)=\operatorname{sign}(w \cdot x+b)$ 可以将两类点准确分类，其中 $w=(u,v)^\mathrm{T}$ ，将 $x_1,x_2,x_3,x_4$ 代入得：
$\\ (2)0*u + 1*v + b > 0 \\ (3)-(1*u + 1*v + b) > 0 \\ (4)-(0*u + 0*v + b) > 0$
$(1) + (2) + (4)$ 为 $u + v + b > 0$ ，与 $(3)$ 矛盾，所以不存在符合条件的感知机模型。

模仿例题2.1，构建从训练数据集求解感知机模型的例子。

算法的原始形式求感知机模型 $f(x)=\operatorname{sign}(w \cdot x+b)$ 。利用 $\leftarrow w+\eta y_{i} x_{i}$ ， $\leftarrow b+\eta y_{i}$
进行迭代，其中取学习率 $\eta = 1$ 。

import numpy as np

def loadData():
    X = np.mat([[3,3], [4,3], [1,1]]) #训练集X
    Y = np.array([1,1,-1]) #对应的训练集标签

    return X, Y

# 迭代
def train1(X, Y, iter=15):
    w = np.array([0 for i in range(X.shape[1])]) #设置w初值
    b = 0 #设置b初值
    eta = 1 #设置学习率

    for i in range(15):
        print("第%d次迭代, w="%i, w, "b=%d"%b)
        flag = True #记录是否有数据误判
        for j  in range(len(Y)):
            x = X[j]
            y = Y[j]
            #若有误判的数据
            if  y * (w*x.T + b) <= 0:
                w = w + eta*y*x #更新w
                b = b + eta*y #更新 b
                flag = False
                break

        if flag:
            break
    return w, b

# 对偶
def train2(X, Y, iter=15):
    N = X.shape[0]
    #设置初值
    alpha = np.array([0 for i in range(N)])
    b = 0
    eta = 1
    #计算Gram矩阵
    G = [[0] * N for i in range(N)]
    for i in range(N):
        for j in range(N):
            G[i][j] = np.asarray(X[i]*X[j].T)[0][0]
    G = np.mat(G)
    print("G = ",G)
    #迭代
    for k in range(iter):
        print("第%d次迭代, alpha="%k, alpha, "b=%d"%b)
        flag = True
        for i  in range(N):
            xi = X[i]
            yi = Y[i]
            #若有误判的数据
            sum = np.sum(alpha*Y*np.asarray(G[i])) + b
            if  Y[i] * sum <= 0:
                alpha[i] = alpha[i] + eta
                b = b + eta*Y[i]
                flag = False
                break
        if flag:
            break
    return alpha, b

X, Y = loadData()
w, b = train(X, Y)
print("最终结果：w=", w, "b=%d"%b)

证明以下定理：样本集线性可分的充分必要条件是正实例点集所构成的凸壳与负实例点集所构成的凸壳互不相交。

证明：

必要性：假设样本集 $T$ 线性可分，则存在一个超平面 $w_{opt}$ 将数据集的正实例点和负实例点完全正确地划分到的两侧。显然两侧的点分别构成的凸壳不相交；
充分性：假设存在两个凸壳 $A$ 、 $B$ 相交，且存在超平面 $w$ 将 $A$ 和 $B$ 线性分割。令 $A$ 在 $B$ 的凸壳内部的点为 $a$ ，因为线性可分，则 $A$ 中不存在两点之间的连线与超平面 $w$ 相交，而凸壳 $B$ 中任意一点与 $A$ 中的点的连线均与超平面 $w$ 相交，则 $B$ 内部的点 $a$ 也与 $A$ 中任一点之间的连线不与 $w$ 相交，与 $A$ 中不存在两点之间的连线与超平面相交矛盾。故只有正负实例点所构成的两个凸壳不相交时样本集才线性可分。

参考文章

码侯烧酒

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第二章-感知机

Minsky与Papert指出：感知机因为是线性模型，所以不能表示复杂的函数，如异或（XOR），验证感知机为什么不能表示异或。答因为异或逻辑线性不可分，证明如下：训练集中包含4个点，其中正实例点为x1=(1,0)Tx_1=(1,0)^\mathrm{T}x1=(1,0)T，x2=(0,1)Tx_2=(0,1)^\mathrm{T}x2=(0,1)T，负实例点为x3=(1,1)Tx_3=(1,1)^\mathrm{T}x3=(1,1)T，x4=(0,0)Tx_4=(0,0)^\mathrm{T.
复制链接

扫一扫