2.1 感知机模型

定义 2.1 (感知机) 假设输入空间(特征空间) 是 X ,输出空间是 y = { -1 , +1} 。
输入 x 表示实例的特征向量,对应于输入空间的点,输出 y 表示实例的类别,由输入空间到输出空间的如下函数:
在这里插入图片描述
称为感知机,其中, w 和 b 为感知机模型参数 , w ∈ R n 叫做权值(weight)或权值向量(weight vector), b ∈ R 叫做偏置(bias), w • x 表示 w 和 x 的内积, sign 是符号函数, 即
在这里插入图片描述

感知机是一种线性分类模型, 属于判别模型,感知机模型的假设空间是定义在特征空间中的所有线性分类模型(linear classification model)或线性分类器(linear classifier),即函数集合{ f | f(x) = w • x +b }.
感知机有如下几何解释:线性方程:
w • x +b
对应于特征空间 R n 中的一个超平面 S ,其中 w 是超平面的法向量, b 是超平面的截距,这个超平面将特征空间划分为两个部分,位于两部分的点(特征向量)分别被分为正、负两类, 因此,超平面 S 称为分离超平面(separating hyperplane),如下图所示。
在这里插入图片描述
感知机学习, 由训练数据集(实例的特征向量及类别)
在这里插入图片描述
其中 ,xI ∈ Rn , y ∈ У= {+1 , -1} , i = 1,2…,N ,求得感知机模型,即求得模型参数 w ,b, 感知机预测,通过学习得到的感知机模型, 对于新的输入实例给出其对应的输出类别。

2.2 感知机学习策略

2.2.1 数据集的线性可分性
给定一个数据集,如果存在某个超平面 S w • x +b
能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有 yi = + 1 的实例 i ,有 w • xi + b > 0 , 对所有的 yi = -1的实例 i ,有 w • xi + b < 0, 则称数据集 T 为线性可分数据集(linearly separable data set);否则,称数据集 T 线性不可分。

2.2.2 感知机学习策略
假设训练数据集是线性可分的, 感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面, 为了找出这样的超平面, 即确定感知机模型参数 w , b ,需要确定一个学习策略, 即定义(经验)损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数, 但是,这样的损失函数不是参数 w, b 的连续可导函数,不宜优化。

另一个选择: 误分类的点到超平面 S 的总距离, 这是感知机所采用的, 为此, 首先写出输入空间 Rn 中任一点 x 0 到超平面 S 的距离:
在这里插入图片描述
这里, || w || 是 w 的 L2 范数。

其次, 对于误分类的数据 (xi , yi)来说,
在这里插入图片描述
成立,因为当 w • xi + b > 0 时, yi = -1 , 而当 w • xi + b < 0 是, y i = +1 , 因此,误分类点 x i 到超平面 S 的距离是 :
在这里插入图片描述

这样, 假设超平面 S 的误分类点集合为 M ,那么所有误分类点到超平面 S 的总距离为:
在这里插入图片描述
不考虑
在这里插入图片描述就可以得到感知机学习的损失函数。 在这里插入图片描述
其中 M 为误分类点的集合, 这个损失函数就是感知机学习的经验风险函数。

显然,损失函数L(w,b) 是非负的, 如果没有误分类点, 损失函数值是 0 , 而且, 误分类点越少, 误分类点离超平面越近,损失函数值就越小,一个特定的样本点的损失函数:在误分类时是参数 w ,b 的线性函数, 在正确分类时是 0 ,因此,给定训练数据集 T,损失函数L(w,b) 是 w ,b 的连续可导函数。

2.3 感知机学习算法

感知机学习问题转化为求解损失函数式(2.4)的最优化问题, 最优化方法是随机梯度下降法,本节序数感知机学习的具体算法,包括原始形式和对偶形式, 并证明在训练数据线性可分条件下感知机学习算法的收敛性。

感知机学习算法的原始形式
感知机学习算法是对以下最优化问题的算法,给定一个训练数据集,求参数 w, b , 使其为以下损失函数极小化问题的解:在这里插入图片描述
其中M为误分类点的集合。

感知机学习算法是误分类驱动的, 具体采用随机梯度下降法(stochastic gradient descent),首先,任意选取一个超平面 w0, b0 ,然后用梯度下降法不断地极小化目标函数, 极小化过程不是一次使 M 中所有误分类点的梯度下降, 而是一次随机选取一个误分类点使其梯度下降。

假设误分类点集合 M 是固定的, 那么损失函数L(w,b) 的梯度由:
在这里插入图片描述
给出。
随机选一个误分类点 (xi, yI),对 w, b 进行更新:
在这里插入图片描述
式中 η(0 < η <= 1 )是步长, 在统计学习中又称为学习率(learning rate) ,这样,通过迭代可以期待损失函数L(w, b)不断减小, 直到为 0 , 综上所述,得到如下算法:
在这里插入图片描述

算法解释:
当一个实例点被误分类, 即位于分离超平面的错误一侧时,即调整 w , b 的值,使分离超平面向该误分类点的一侧移动, 以较少该误分类点与超平吗的距离,直至超平面越过该误分类点使其被正确分类。

算法2.1 是感知机学习的基本算法,其正实例是 x1 = (3,3) T , x2 = (4,3) T , 负实例点是 x3 = (1,1)T ,试用感知机学习算法的原始形式求感知机模型 f(x) = sign(w • xi + b), 这里 , w = (w(1), w (2) )T , x = (x(1), x (2) )T
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

表2.1 例 2.1 求解的迭代过程
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200113172020875.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0NTg3ODU1,size_16,color_FFFFFF,t_70)

感知机学习算法由于采用不同的初值或选取不同的误分类点,解可以不同。 比如换个顺序取误分类点,那么得到的超分离平面会不一样。

2.3.2 算法的收敛性

现在证明, 对于线性可分数据集感知机学习算法原始形式收敛, 即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型

改进:
为了便于叙述与推导, 将偏置 b 并入权重 w ,记作 (wT , b)T , 同样也将输入向量加以扩充,加进常数 1 , 记作 (xT , 1)T

定理 2.1 (Novikoff) 设训练数据集 T = { (x1 ,y 1),…(xN,yN)} 是线性可分的, xi = R n, y i = {-1, +1 },则
(1)存在满足条件 || wopt|| = 1 的超平面 wopt • x + bopt = 0将训练数据集完全正确分开, 且存在 У > 0 , 对所有 i = 1,2 …, N
在这里插入图片描述
(2)令 R = max|| xi || ,则感知机算法2.1 在训练数据集上的误分类次数 k 满足不等式
在这里插入图片描述

证明:
略(后补)

定理表明,误分类的次数 k 是由上界的, 经过有限次搜索就可以找到将训练数据完全正确分开的分离超平面,也就是说,当训练数据集线性可分的时候,感知机学习算法原始形式迭代是收敛的。

但是例2.1 说明,感知机学习算法存在许多解, 这些解既依赖于初值的选择,也依赖于迭代过程误分类点的选择顺序,为了得到唯一的超平面,需要对分离超平面增加约束条件,这就是第 7 章要僵讲述的线性支持向量机的想法。 ==当训练集线性不可分时,感知机学习算法不收敛,迭代结果会发生震荡。

2.3.3 感知机学习算法的对偶形式

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。 《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 《统计学习方法》 第1章统计学习方法概论 1.1统计学习 1.2监督学习 1.2.1基本概念 1.2.2问题的形式化 1.3统计学习三要素 1.3.1模型 1.3.2策略 1.3.3算法 1.4模型评估与模型选择 1.4.1训练误差与测试误差 1.4.2过拟合与模型选择 1.5i~则化与交叉验证 1.5.1正则化 1.5.2交叉验证 1.6泛化能力 1.6.1泛化误差 1.6.2泛化误差上界 1.7生成模型与判别模型 .1.8分类问题 1.9标注问题 1.10回归问题 本章概要 继续阅读 习题 参考文献 第2章感知机 2.1感知机模型 2.2感知机学习策略 2.2.1数据集的线性可分性 2.2.2感知机学习策略 2.3感知机学习算法 2.3.1感知机学习算法的原始形式 2.3.2算法的收敛性 2.3.3感知机学习算法的对偶形式 本章概要 继续阅读 习题 参考文献 第3章众近邻法 3.1 k近邻算法 3.2 k近邻模型 3.2.1模型 3.2.2距离度量 ·3.2.3 k值的选择 3.2.4分类决策规则 3.3k近邻法的实现:kd树 3.3.1构造af树 3.3.2搜索af树 本章概要 继续阅读 习题 参考文献 第4章朴素贝叶斯法 4.1朴素贝叶斯法的学习与分类 4.1.1基本方法 4.1.2后验概率最大化的含义 4.2朴素贝叶斯法的参数估计 4.2.1极大似然估计 4.2.2学习与分类算法 4.2.3贝叶斯估计 本章概要 继续阅读 习题 参考文献 第5章决策树 5.1决策树模型与学习 5.1.1决策树模型 5.1.2决策树与isthen规则 5.1.3决策树与条件概率分布 5.1.4决策树学习 5.2特征选择 5.2.1特征选择问题 5.2.2信息增益 5.2.3信息增益比 5.3决策树的生成 5.3.11d3算法 5.3.2 c4.5的生成算法 5.4决策树的剪枝 5.5cart算法 5.5.1cart生成 5.5.2cart剪枝 本章概要 继续阅读 习题 参考文献 第6章逻辑斯谛回归与最大熵模型 6.1逻辑斯谛回归模型 6.1.1逻辑斯谛分布 6.1.2项逻辑斯谛回归模型 6.1.3模型参数估计 6.1.4多项逻辑斯谛回归 6.2最大熵模型 6.2.1最大熵原理 6.2.2最大熵模型的定义 6.2.3最大熵模型的学习 6.2.4极大似然估计 6.3模型学习的最优化算法 6.3.1改进的迭代尺度法 6.3.2拟牛顿法 本章概要 继续阅读 习题 参考文献 第7章支持向量机 7.1线性可分支持向量机与硬间隔最大化 7.1.1线性可分支持向量机 7.1.2函数间隔和几何间隔 7.1.3间隔最大化 7.1.4学习的对偶算法 7.2线性支持向量机与软间隔最大化 7.2.1线性支持向量机 7.2.2学习的对偶算法 7.2.3支持向量 7.2.4合页损失函数 7.3非线性支持向量机与核函数 7.3.1核技巧 7.3.2定核 7.3.3常用核函数 7.3.4非线性支持向量分类机 7.4序列最小最优化算法 7.4.1两个变量二次规划的求解方法 7.4.2变量的选择方法 7.4.3smo算法 本章概要 继续阅读 习题 参考文献 第8章提升方法 8.1提升方法adaboost算法 8.1.1提升方法的基本思路 8.1.2adaboost算法 8.1.3 adaboost的例子 8.2adaboost算法的训练误差分析 8.3 adaboost算法的解释 8.3.1前向分步算法 8.3.2前向分步算法与ad9boost 8.4提升树 8.4.1提升树模型 8.4.2提升树算法 8.4.3梯度提升 本章概要 继续阅读 习题 参考文献 第9章em算法及其推广 9.1em算法的引入 9.1.1em算法 9.1.2em算法的导出 9.1.3em算法在非监督学习中的应用 9.2em算法的收敛性 9.3em算法在高斯混合模型学习中的应用 9.3.1高斯混合模型 9.3.2高斯混合模型参数估计的em算法 9.4em算法的推广 9.4.1f函数的极大极大算法 9.4.2gem算法 本章概要 继续阅读 习题 参考文献 第10章隐马尔可夫模型 10.1隐马尔可夫模型的基本概念 10.1.1隐马尔可夫模型的定义 10.1.2观测序列的生成过程 10.1.3隐马尔可夫模型的3个基本问题 10.2概率计算算法 10.2.1直接计算法 10.2.2前向算法 10.2.3后向算法 10.2.4一些概率与期望值的计算 10.3学习算法 10.3.1监督学习方法 10.3.2baum-welch算法 10.3.3baum-welch模型参数估计公式 10.4预测算法 10.4.1近似算法 10.4.2维特比算法 本章概要 继续阅读 习题 参考文献 第11章条件随机场 11.1概率无向图模型 11.1.1模型定义 11.1.2概率无向图模型的因子分解 11.2条件随机场的定义与形式 11.2.1条件随机场的定义 11.2.2条件随机场的参数化形式 11.2.3条件随机场的简化形式 11.2.4条件随机场的矩阵形式 11.3条件随机场的概率计算问题 11.3.1前向后向算法 11.3.2概率计算 11.3.3期望值的计算 11.4条件随机场的学习算法 11.4.1改进的迭代尺度法 11.4.2拟牛顿法 11.5条件随机场的预测算法 本章概要 继续阅读 习题 参考文献 第12章统计学习方法总结 附录a梯度下降法 附录b牛顿法和拟牛顿法 附录c拉格朗日对偶性

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值