什么是感知机,对偶形式

1.6泛化能力

学习方法的泛化能力–通过研究泛化误差的概率上界进行的,简称为泛化误差上界
具体来说,—通过比较两种学习方去的泛化误差上界的大小来比较它们的优劣.泛化误差上界性质:是样本容量的函数,当样本容量增加时,泛化上界趋于0:
是假设空间容量capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大.
例子:二类分类问题的泛化误差上界
考虑二类分类问题.已知训练数据集T={(,3),(,)…,(,y,),是从联合概率分布P(X,Y)独立同分布产生德,假设空间为函数的有限集合,
在这里插入图片描述

泛化误差上界,
对于 二分类问题,当假设空间是有限个函数的集合,F属于{f1,f2,f3……},中的任意一个函数,f,至少以概率 1-detla 以下不等式成立
在这里插入图片描述

1.7生成模型与判别模型

监督学习的任务—学习一个模型,应用这一个模型,对给定输入预测相应输出,这个模型的一般形式为:决策函数Y=f(X),或者 条件概率分布P(Y|X)
监督学习方法又可以分为生成方法–生成模型、和判别方法—判别模型,

生成方法:数据–联合概率分布–条件概率分布–作为预测的模型,即生成模型
P(Y|X)=P(X,Y)/P(X)
why生成,给定了输入X输出Y的生成关系,典型生成模型为,朴素贝叶斯,隐马尔可夫
特点:还原联合概率分布,学习收敛速度更快,样本容量增加时候,学的模型可以更快的收敛,存在隐性变量时,仍可以用这个

判别方法,数据—学习决策函数F(X)或者条件概率分布P(Y|X)作为预测的模型–判别模型, 关心–给定的输入X,应预测什么输出Y,
典型:k近邻,感知机,决策树,逻辑斯蒂回归模型,最大熵,支持向量机,提升方法,条件随机场
特点:直接面对预测。学习的准确率更高,可以对数据进行抽象,可以简化学习问题

1.8分类问题

分类,输出变量Y是有限个离散值,预测–变分类,输入连续离散都可
分类模型=分类器,分类器对新的输入进行预测=分类
分类问题:学习,分类两个过程
学习:根据数据集学习分类器;分类:利用学习的分类器对新的输入实例分类。
分类准确率—分类器正确分类的样本数与总样本数之比,也就是损失函数是0-1损失时,测试数据集上的准确率。
二分类问题------精确率与召回率,
在这里插入图片描述

Tp——将正类预测为正类数;
FN----将正类预测为负类数;
FP——将负类预测为正类数;
TN–——-将负类预测为负类数,
精确率定义为
在这里插入图片描述

1.9标注问题—分类问题的推广

输入:一个观测序列,输出一个标记序列或者状态序列,
目标:学习一个模型,可对观测序列给出 标记序列 作为预测
Note:可能标记个数是有限的,使其组合所成的标记序列个数 依序列长度呈指数级增长
标注问题:学习和标注两个过程
基于,训练数据集,构建一个模型,表示为条件概率分布,
P(Y1,Y2,,,Yn|X1,X2,Xn);
在这里插入图片描述

Xi 取值为所有可能的观测,Yi取值为所有可能的标记,一般取得n<<N
在这里插入图片描述

评价指标:标注准确率,精确率,召回率,定义与分类模型相同
标注常用的统计学习方法:隐马尔可夫模型,条件随机场
标注应用:信息抽取,自然语言处理

1.10回归问题

用于 预测输入变量和输出变量之间的关系
输入变量的值发生变化,输出变量的值随之发生变化,
回归模型:表示从输入变量到输出变量之间映射的函数,----等价函数拟合,
选择一个函数很好的拟合已知数据,很好预测未知数据
回归问题:学习,预测两个过程
在这里插入图片描述

回归问题:按着输入变量的个数,分为一元回归和多元回归,输入输出变量的关系,分为线性分类,非线性分类
回归学习:损失函数—平方损失函数,在这个前提下,可以用最小二乘法求解

2.1感知机

二分类 的 线性分类模型,输入:特征向量,输出类别取值为+1,-1,
目的:数据线性划分的 分离平面,
工具:损失函数,梯度下降
基于误分类的损失函数,利用梯度下降法,对损失函数进行极小化,求得感知机
感知机:f(x)=sgn(wx+b);
W叫做权值,或者权值向量, b叫做偏置,w
x–内积
w*x+b=0—对应特征空间 R中的一个超平面S,w为超平面的法向量,b为超平面的截距,超平面将数据划分为两个部分,位于两部分的点(特征向量)被分为正负两类

在这里插入图片描述

2.2感知机的学习策略
数据线性可分–肯定能找到一个平面使得正负点,被正确划分
学习策略:首先,假设数据线性可分,找超平面就是确定w,b,利用梯度下降最小化损失函数(关于w b不是连续可导的)找,所以采用,误分类点到超平面S的总体距离
在这里插入图片描述
在这里插入图片描述

在训练数据线性可分条件下,感知机学习算法收敛
感知机学习算法:是由误分类驱动的,
具体:首先,任意选取一个超平面w0,b0,采用梯度下降法,不断极小化目标函数,极小化过程中,不是一次,使得,所有误分类点的梯度下降,是一次随机选取一个误分类点使其梯度下降
在这里插入图片描述
在这里插入图片描述

误分类的次数k是有上界的,经过有限次的搜索可以找到正确的超平面,故当训练数据线性可分时,感知机收敛,
但是感知机,存在多种解法,这些解依赖于初始值的选择,也依赖于迭代过程中,误分类点的选择,如果想得到唯一的超平面,就比必须对分离超平面增加约束条件,即:线性支持向量机的想法,
数据线性不可分时,感知机学习算法不收敛,迭代结果会发生震荡

感知机的对偶

对偶问题简单说,
原来:一次只选择某一个误分类点,不断更新w b,每次参数改变,所有矩阵必须被全部进行计算
现在:学习某一点被误分类的次数 ai即ni(第i个点由于误分类,w b进行更新的次数),在对偶形式中引入Gram矩阵来存储内积,可以提高运算速度
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
来源于:李航,统计学习方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值