![0f84afbbdbac3d7e331a5dcf66c1086b.png](https://img-blog.csdnimg.cn/img_convert/0f84afbbdbac3d7e331a5dcf66c1086b.png)
1. 线性模型
-
- 1.1. 指数族分布
- 1.1.1. 伯努利分布
- 1.1. 指数族分布
-
- 1.2. 线性回归与广义线性模型
- 1.2.1. 线性回归
- 1.2.2. 广义线性模型
- 1.2.3. logistic回归(对数几率回归)
- 1.2.4. 线性判别分析 (LDA)
- 1.3. 多分类学习
- 1.4. 类别不平衡问题
- 1.2. 线性回归与广义线性模型
1. 线性模型
1.1. 指数族分布
指数族分布指一类分布,其概率密度函数都可以写成如下形式:
其中:
-
为自然参数。对于线性回归和logistic回归,
是一个实数,且假设
; 对于softmax回归,
是一个向量,且假设
- T(y)是充分统计量,对于线性回归和logistic回归,有T(y)=y;对于k个类的softmax回归,
-
是一个对数配分函数,
在式子中起到归一化的作用,保证概率密度函数在随机变量y上的积分为1, 一旦T、a、b确定,就可以确定一种分布,
为参数。
1.1.1. 伯努利分布
伯努利分布
由此可得
1.2. 线性回归与广义线性模型
给定d个属性
一般用向量形式写成
其中
1.2.1. 线性回归
给定数据集
对于离散属性:如果输入的属性间存在"序"的关系,可通过连续化将其转换为连续值(labelencoder) 如果不存在序的关系,使用one-hot encoder转化
线性回归试图学得
那么,如何确定参数w和b呢?显然,关键在于衡量f(x)和y之间的差别。均方误差是回归任务中最常用的性能度量,因此可试图让均方误差最小化,即
均方误差对应了欧氏距离。基于均方误差最小化来进行模型求解的方法称为 最小二乘法 。在线性回归中,最小二乘法试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
求解w和b使得
如果数据集中的属性有d个,此时试图学得
这称为“多元线性回归”。
类似的,可利用最小二乘法对w和b进行估计。为了方便把w和b吸收入向量的形式
再把标记也写成向量形式
令
令上式为0可得
若
则最终得到多元线性回归模型:
大多数情况下,
1.2.2. 广义线性模型
线性回归可以看做希望线性模型的预测值逼近真实标记y。 如果我们将输出标记的对数作为线性模型逼近的目标,则得到“对数线性模型”:
它实际上是试图让
更一般地,考虑单调可微函数g(·),令
这样得到的模型称为广义线性模型,其中,函数g(·)称为联系函数(link function)。
对于给定x下y的条件分布,作如下三个假设:
-
,即当给定x和w时,随机变量y的分布服从某个指数族分布
- 已知一个x,我们的目标是预测给定x下T(y)的条件期望,即
- 自然参数
是输入x的线性函数,即
,或者当
是一个向量时,
1.2.3. logistic回归(对数几率回归)
对于二分类任务,其输出标记
但是,单位阶跃函数不连续,因此不能用作广义线性模型中的联系函数。因此使用单调可微并且近似单位阶跃函数的对数几率函数作为替代:
对数几率函数是一种"sigmoid函数"。
另一方面,从指数族分布和广义线性模型出发,而分类属于伯努利分布,将伯努利分布转换成指数族分布形式,![]()
又因为广义线性模型的第三个假设:![]()
带入可得logistic回归的形式,这也是为什么使用sigmoid函数的原因之一。
将对数几率函数作为
可转化为:
若将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值
称为几率,反映了x作为正例的相对可能性,对几率取对数则得到对数几率。
实际上,是在用线性回归模型的预测结果去逼近真实标记的对数几率。 优点: - 直接对分类可能性进行建模,无需事先假设数据分布,避免了假设分布不准确带来的问题 - 不是仅预测出类别,而是可得到近似概率预测,这对许多利用概率辅助决策的任务很有用 - 对率函数是任意阶可导的凸函数,可使用现有的很多数值优化算法直接求最优解
如何确定logistic回归中的w和b?
将y视为类后验概率估计,则有:
显然有
于是,可通过“极大似然法”来估计w和b。 给定数据集
令
可得到上上式的最大化,等于下式的最小化:
1.2.4. 线性判别分析 (LDA)
1.3. 多分类学习
多分类问题的一般思路:使用“拆解法”将多个分类任务拆为若干个二分类任务求解。具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器。测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。
最经典的拆分策略有三种:一对一、一对其余、多对多
- 一对一:将所有类别两两匹配,产生若干个分类器。最终结果通过投票产生。即把被预测的最多的类别作为最终分类模型。
- 一对其余:每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器。测试时若仅有一个分类器预测为正类,则对应的类别标记为最终分类结果。若有多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果。
- 多对多:每次将若干个类作为正例,若干个其他类作为反例。常用的多对多技术:“纠错输出码”。
1.4. 类别不平衡问题
指分类任务中不同类别的训练样例数目差别很大的情况。 logistic回归中的几率
然而,当正反例数目不同时,令
因此,需要对预测值进行调整,令
这就是类别不平衡学习的一个基本策略---再缩放。
由于训练集是真实样本总体的无偏采样的假设往往并不成立,所以无法基于训练集的观测几率来推出真实几率。 现有的技术大体有三种做法 - 欠采样 利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但在全局来看不会丢失重要信息。 - 过采样 过采样不能简单的对初始正例样本进行重复采样,否则会导致严重的过拟合。过采样的代表性算法SMOTE通过对训练集里的正例进行插值来产生额外的正例。 - 阈值移动 在用训练好的分类器进行预测时,将再缩放公式嵌入到其决策过程中。