线性分类详解

线性分类

为了解决分类问题,在线性模型的函数进行之后再加入一层激活函数,这个函数是非线性的,激活函数的反函数叫链接函数。线性分类有两种方式:
1、硬分类,我们直接需要输出观测对应的分类。这类模型的代表为:
(1)线性判别分析
(2)感知机
2、软分类,产生不同类别的概率,这类算法根据概率方法的不同分为两种
(1)生成式(根据贝叶斯定理先计算参数后验,在进行推断),高斯判别式分析(GDA)和朴素贝叶斯
(2)判别式(直接对条件概率进行建模):logistic回归
一、硬分类–感知机
选取激活函数为:
在这里插入图片描述
这样就可以将线性回归的结果映射到两分类的结果上了。
定义的损失函数为错误分类的数目,比较直观的方式是使用指示函数,但是指示函数不可导,因此可以定义为
在这里插入图片描述
其中,在这里插入图片描述
是错误分类的集合,实际在每一次训练的时候,我们采用梯度下降的算法。损失函数对w的偏导为:
在这里插入图片描述
但是如果在样本非常多的情况下,计算复杂度较高,但是没实际上我们不需要绝对的损失函数下降的方向,我们只需要损失函数的期望值下降,但是计算期望需要知道真实的概率分布,我们实际只能根据训练数据抽样来估算这个概率分布(经验风险):
在这里插入图片描述
我们知道,N越大,样本近似真实分布越准确,但是对于一个标准差为在这里插入图片描述
的数据,可以确定的标准差仅和根号N成反比,然而计算速度却和N成正比。因此可以每次使用较少样本,则在数学期望的意义上损失降低的同时,有可以提高计算速度,如果每次只使用一个错误样本,我们有下面的更新策略(根据泰勒公式,在负方向):
在这里插入图片描述
是可以收敛的,同时使用单个观测更新也可以在一定程度上增加不确定度,从而减轻陷入局部最小的可能,在更大规模的数据上,常用的是小批量随机梯度下降法。
二、硬分类–线性判别分析LDA
在LDA中,我们的基本 思想是选定一个方向,将实验样本顺着这个方向投影,投影后的数据需要满足两个条件,从而能够更好的分类:
1、相同类内部的实验样本距离接近
2、不同类别之间的距离较大
首先是投影,假设原来的数据是向量x,那么顺着w方向的投影就是标量:
在这里插入图片描述
对于第一点,相同类内部的样本更为接近,我们假设属于两类的实验样本数据分别是N1和N2,那么使用方差矩阵来表示每一个类内的总体分布,这里采用协方差的定义,使用S表示数据的协方差:
在这里插入图片描述
所以类内距离可以记为:
在这里插入图片描述
对于第二点,我们可以使用两类的均值表示这个距离:
在这里插入图片描述
综上所述,由于协方差是一个矩阵,于是我们用将这两个值相除来得到我们的损失函数,并最大化这个值:
在这里插入图片描述
这样,我们就可以把损失函数和原数据集以及参数结合起来了,下面对损失函数进行求偏导,注意对于w的绝对值没有任何要求,只对其方向有要求,故只需要一个方程就可以求解:
在这里插入图片描述
所以在这里插入图片描述
就是我们需要寻找的方向,最后可以归一化求得单位的w值。
三、软分类–概率判别模型-Logistic回归
在有些情况下我们只需要得到一个类别的概率,则需要一种能够输出[0,1]区间的值的函数。考虑到二分类模型,使用判别模型,对p(C|x)建模,利用贝叶斯定理:
在这里插入图片描述
令:
在这里插入图片描述
故:

在这里插入图片描述
上式被称作Logistic Sigmoid函数,其参数表示两类联合概率比值的对数。在判别式中,不需要关心这个参数的具体值,模型假设直接对a进行。
Logistic回归的模型假设为:
在这里插入图片描述
所以,可以通过寻找w的最佳值可以得到这个模型假设下的最佳模型。概率判别模型常用最大似然估计的方式来确定参数。
对于一次观测,获得分类y的概率为(假设C1=1,C2=0):
在这里插入图片描述
那么对于N次独立全同的观测MLE为:
在这里插入图片描述
注意到,这个表达式是交叉熵表达式的相反数乘N,MLE中的对数也保证了可以和指数函数向匹配。从而在大的区间汇总获取稳定的梯度,
对这个函数求导数,注意到:
在这里插入图片描述
则 :
在这里插入图片描述
由于概率值的非线性,放在求和符号中时,这个式子无法直接求解。于是在实际训练的时候,和感知机类似,也可以使用不同大小的批量随机梯度上升(对于最小化就是梯度下降)来获得这个函数的极大值。
四、软分类–高斯判别分析GDA
在生成模型中,我们对联合概率分布进行建模,然后采用MAP来获得参数的最佳值。二分类的情况,我们采用的假设为:
在这里插入图片描述
那么独立全同的数据集最大后验概率可以表示为:
在这里插入图片描述
首先对
在这里插入图片描述
进行求解,将式子对其求偏导:

在这里插入图片描述
然后求解u1:
在这里插入图片描述
因为:
在这里插入图片描述
求微分:
在这里插入图片描述
四、软分类–概率生成模型–朴素贝叶斯
上述的高斯判别分析的是对数据集的分布作出了高斯分布的假设,同时引入了伯努利分布作为类实验,从而利用最大后验求得这些假设中的参数。
朴素贝叶斯对数据之间的属性作出了假设,一般的,我们有需要得到p(x|y)这个概率值,由于x有p个维度,因此需要对这么多的维度的联合概率进行采样,但是我们知道这么高维度的空间中采样需要的样本数量非常大才能获得较为准确的概率近似。
在一般的有向概率图模型中,对各个属性维度之间的条件独立关系作出了不同的假设,其中最为简单的一个假设就是在朴素贝叶斯模型描述中的条件独立性假设。
在这里插入图片描述

在这里插入图片描述
于是利用贝叶斯定理,对于单次观测:
在这里插入图片描述
对于单个维度的条件概率以及类先验做出进一步的假设
(1)、xi为连续变量:
在这里插入图片描述
(2)xi为离散变量:类别分布(Categorical):
在这里插入图片描述
3、在这里插入图片描述
对于这些参数的估计,常用MLE的方法直接在数据集上估计,由于不需要知道各个维度之间的关系,因此,所需数据量大大减少了。估算完这些参数,再代入贝叶斯定理中得到类别的后验分布。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值