什么是感知机，对偶形式

最新推荐文章于 2024-02-18 11:00:00 发布

不爱吃香菇的干饭少年

最新推荐文章于 2024-02-18 11:00:00 发布

阅读量267

点赞数

分类专栏：就Machine 文章标签：回归机器学习算法

本文链接：https://blog.csdn.net/qq_43594926/article/details/124728370

版权

就Machine 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.6泛化能力

学习方法的泛化能力–通过研究泛化误差的概率上界进行的，简称为泛化误差上界
具体来说，—通过比较两种学习方去的泛化误差上界的大小来比较它们的优劣.泛化误差上界性质：是样本容量的函数，当样本容量增加时，泛化上界趋于0:
是假设空间容量capacity）的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大.
例子：二类分类问题的泛化误差上界
考虑二类分类问题．已知训练数据集T={(,3),(,)…,(,y,)，是从联合概率分布P(X,Y)独立同分布产生德，假设空间为函数的有限集合，
在这里插入图片描述

泛化误差上界，
对于二分类问题，当假设空间是有限个函数的集合，F属于{f1,f2,f3……}，中的任意一个函数，f，至少以概率 1-detla 以下不等式成立
在这里插入图片描述

1.7生成模型与判别模型

监督学习的任务—学习一个模型，应用这一个模型，对给定输入预测相应输出，这个模型的一般形式为：决策函数Y=f(X)，或者条件概率分布P(Y|X)
监督学习方法又可以分为生成方法–生成模型、和判别方法—判别模型，

生成方法：数据–联合概率分布–条件概率分布–作为预测的模型，即生成模型
P(Y|X)=P(X,Y)/P(X)
why生成，给定了输入X输出Y的生成关系，典型生成模型为，朴素贝叶斯，隐马尔可夫
特点：还原联合概率分布，学习收敛速度更快，样本容量增加时候，学的模型可以更快的收敛，存在隐性变量时，仍可以用这个

判别方法，数据—学习决策函数F(X)或者条件概率分布P(Y|X)作为预测的模型–判别模型，关心–给定的输入X，应预测什么输出Y，
典型：k近邻，感知机，决策树，逻辑斯蒂回归模型，最大熵，支持向量机，提升方法，条件随机场
特点：直接面对预测。学习的准确率更高，可以对数据进行抽象，可以简化学习问题

1.8分类问题

分类，输出变量Y是有限个离散值，预测–变分类，输入连续离散都可
分类模型=分类器，分类器对新的输入进行预测=分类
分类问题：学习，分类两个过程
学习：根据数据集学习分类器；分类：利用学习的分类器对新的输入实例分类。
分类准确率—分类器正确分类的样本数与总样本数之比，也就是损失函数是0-1损失时，测试数据集上的准确率。
二分类问题------精确率与召回率，
在这里插入图片描述

Tp——将正类预测为正类数;
FN----将正类预测为负类数;
FP——将负类预测为正类数;
TN–——-将负类预测为负类数，
精确率定义为
在这里插入图片描述

1.9标注问题—分类问题的推广

输入：一个观测序列，输出一个标记序列或者状态序列，
目标：学习一个模型，可对观测序列给出标记序列作为预测
Note:可能标记个数是有限的，使其组合所成的标记序列个数依序列长度呈指数级增长
标注问题：学习和标注两个过程
基于，训练数据集，构建一个模型，表示为条件概率分布，
P（Y1，Y2，，，Yn|X1,X2,Xn）;
在这里插入图片描述

Xi 取值为所有可能的观测，Yi取值为所有可能的标记，一般取得n<<N
在这里插入图片描述

评价指标：标注准确率，精确率，召回率，定义与分类模型相同
标注常用的统计学习方法：隐马尔可夫模型，条件随机场
标注应用：信息抽取，自然语言处理

1.10回归问题

用于预测输入变量和输出变量之间的关系
输入变量的值发生变化，输出变量的值随之发生变化，
回归模型：表示从输入变量到输出变量之间映射的函数，----等价函数拟合，
选择一个函数很好的拟合已知数据，很好预测未知数据
回归问题：学习，预测两个过程
在这里插入图片描述

回归问题：按着输入变量的个数，分为一元回归和多元回归，输入输出变量的关系，分为线性分类，非线性分类
回归学习：损失函数—平方损失函数，在这个前提下，可以用最小二乘法求解

2.1感知机

二分类的线性分类模型，输入：特征向量，输出类别取值为+1，-1，
目的：数据线性划分的分离平面，
工具：损失函数，梯度下降
基于误分类的损失函数，利用梯度下降法，对损失函数进行极小化，求得感知机
感知机:f(x)=sgn(wx+b);
W叫做权值，或者权值向量， b叫做偏置，wx–内积
w*x+b=0—对应特征空间 R中的一个超平面S，w为超平面的法向量，b为超平面的截距，超平面将数据划分为两个部分，位于两部分的点（特征向量）被分为正负两类

在这里插入图片描述

2.2感知机的学习策略
数据线性可分–肯定能找到一个平面使得正负点，被正确划分
学习策略：首先，假设数据线性可分，找超平面就是确定w,b，利用梯度下降最小化损失函数（关于w b不是连续可导的）找，所以采用，误分类点到超平面S的总体距离
在这里插入图片描述

在训练数据线性可分条件下，感知机学习算法收敛
感知机学习算法：是由误分类驱动的，
具体：首先，任意选取一个超平面w0,b0，采用梯度下降法，不断极小化目标函数，极小化过程中，不是一次，使得，所有误分类点的梯度下降，是一次随机选取一个误分类点使其梯度下降
在这里插入图片描述

误分类的次数k是有上界的，经过有限次的搜索可以找到正确的超平面，故当训练数据线性可分时，感知机收敛，
但是感知机，存在多种解法，这些解依赖于初始值的选择，也依赖于迭代过程中，误分类点的选择，如果想得到唯一的超平面，就比必须对分离超平面增加约束条件，即：线性支持向量机的想法，
数据线性不可分时，感知机学习算法不收敛，迭代结果会发生震荡

感知机的对偶

对偶问题简单说，
原来：一次只选择某一个误分类点，不断更新w b，每次参数改变，所有矩阵必须被全部进行计算
现在：学习某一点被误分类的次数 ai即ni（第i个点由于误分类，w b进行更新的次数），在对偶形式中引入Gram矩阵来存储内积，可以提高运算速度
在这里插入图片描述

来源于：李航，统计学习方法