一、基本形式
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即
其中w是权重向量,b是偏置项,x是输入样本。这种形式简单、易于理解,是许多复杂模型的基础。
二、线性回归
给定数据集,其中.“线性回归”(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记.
线性回归是线性模型中最基本的一种,它试图学到一个线性模型以尽可能准确地预测实值输出标记。
使用最小二乘法,通过最小化均方误差来求解模型参数w和b。
均方误差是衡量预测值与真实值之间差异的一种常用方法,它对应了欧几里得距离(欧氏距离)。求解w和b使最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation).我们可将E(u,b)分别对w和b求导,得到
求得
类型:
- 一元线性回归:当输入属性只有一个时,称为一元线性回归。
- 多元线性回归:当输入属性有多个时,称为多元线性回归。此时,x是一个向量,w也是一个与x维度相同的向量。我们把w和b吸收入向量形式,相应的,把数据集D表示为一个m× (d+1)大小的矩阵X,其中每行对应于一个示例,该行前d个元素对应于示例的d个属性值,最后一个元素恒置为1,即 再把标记也写成向量形式 令最终学得的多元线性回归模型为
- 对数线性回归:模型的预测值逼近真实标记的衍生物(如对数),虽然形式上是线性回归,但实质上是在求取输入空间到输出空间的非线性函数映射。
- 广义线性模型:
三、对数几率回归
对数几率回归虽然名字中带有“回归”,但实际上是一种分类方法,主要用于二分类问题。它通过引入Sigmoid函数(或称对数几率函数),将线性回归模型的预测值转化为一个介于0和1之间的概率值,从而进行分类。
Sigmoid函数:
函数形式为,其中。
Sigmoid函数将任意实数映射到(0,1)区间,实现了概率的转换。
优化目标:
对数几率回归的优化目标是使得正例样本的预测概率尽可能大,反例样本的预测概率尽可能小。这通常通过最大化对数似然函数(或最小化交叉熵损失)来实现。
四、线性判别分析(LDA)
线性判别分析是一种监督学习的降维技术,它通过将数据投影到低维空间,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能远离,从而实现分类效果。LDA不仅可以用于降维,还可以直接用于分类任务。
五、多分类学习
对于多分类问题,通常需要将其拆分为多个二分类问题来求解。常见的拆分策略有:
-
一对一(OvO):将N个类别两两配对,产生N(N-1)/2个二分类任务。测试时,新样本将同时提交给所有分类器,最终结果通过投票产生。
-
一对其余(OvR):每次将一个类的样例作为正例,所有其他类的样例作为反例来训练分类器。测试时,若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果。
-
多对多(MvM):每次将若干类作为正类,若干其他类作为反类。常用方法为“纠错输出码”(ECOC),通过编码和解码过程来实现多分类。
六、类别不平衡问题
类别不平衡问题指的是不同类别的训练样例数目差别很大。这会导致学习算法偏向于多数类,从而忽视少数类。解决类别不平衡问题的方法有:
-
再缩放:通过调整预测阈值来平衡不同类别的预测结果。
-
欠采样:去除一些多数类样本,使得正负样本数目接近。
-
过采样:增加一些少数类样本,使得正负样本数目接近。注意,简单的复制少数类样本可能会导致过拟合。
-
阈值移动:在分类器预测正负概率比时,乘上负样本与正样本数量之比,以调整预测结果。