第三章 线性模型
3.1 基本形式
为了使模型更为优化,一般采用向量形式来代替for循环:
3.2 线性回归
为确定w,b的值,我们可以让均方误差最小化
欧氏距离Euclidean distance :对应均方误差的几何意义最小二乘法least square method :基于均方误差最小化来进行模型求解的方法。即试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。见图3.2.3线性回归模型的最小二乘 “参数估计”parameter estimation :其求解过程“多元线性回归”multivariate linear regression : 当样本由d 个属性描述时,把数据集D表示为一个m x ( d + 1 ) 大小的矩阵X , 其中每行对应于一个示例,该行前d 个元素对应于示例的d 个属性值,最后一个元素恒置为1,见图3.2.5
当XTX为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)
然而,现实任务中X T X 往往不是满秩矩阵.常见的做法是引入正则化(regularization)项。
“对数线性回归”log-linear regression:
令模型预测值逼近y 的衍生物 ,试图让exp(wTx+b)逼近y。
其在形式上仍是线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射。
“广义线性模型" generalized linear model: 其中函数g (·)称为 “联系函数”(link function) ,对数线性回归是广义线性模型在 = In(·)时的特例。
3.3 对数几率回归
分类任务:
单位阶跃函数(unit-step function): 将实值 转换为 0 / 1 值,缺点是不连续对数几率函数 (logistic function): 在一定程度上近似单位阶跃函数的 “替代函数 ”surrogate function, 并单调可微.是一种sigmoid函数,它将 z值转化为一个接近0或1的 g 值,并且其输出值在z = 0 附近变化很陡。可变化为
几率odd:反映了。作为正例的相对可能性
对数几率:
极大似然法maximum likelihood method:来估计w和b
对数似然log- likelihood: 对率回归模型最大化即令每个样本属于其真实标记的概率越大越好
其最优解
3.4 线性判断分析
线性判别分析Linear Discriminant Analysis ,简称 LDA,亦称 “Fisher判别分析:给定训练样例集,设法将样例投影到一条直线上, 使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
类内散度矩阵 within-class scatter matrix:
类间散度矩阵between-class scatter matrix:
代入1式可得广义瑞利商generalized Rayleigh quotient
全局散度矩阵:
多分类LDA 可以有多种实现方法:使用Sb, Sw,St 三者中的任何两个即可,常见的一种实现是采用优化目标:
3.5 多分类学习
MvM:绛次将若干个类作为正类,若干个其他类作为反类,OvO和 OvR是MvM的特例
纠错输出码 Error Correcting Output Codes,简称 ECOC:一种最常用的MvM技术,将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。
主要分为两步:
• 编码:对 N 个类别做河次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生M 个训练集,可训练出M 个分类器。• 解码:M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码,将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。类别划分:通过“编码矩阵 " ( coding matrix) 指定,编码矩阵有多种形式,常见的主要有二元码和三元码前者将每个类别分别指定为正类和反类,后者在正、反类之外,还可指定 “停用类”。
3.6 类别不平衡问题
类别不平衡问题class-imbalance: 指分类任务中不同类别的训练样例数目差别很大的情况。再 缩 放 rescaling:类别不平衡学习的一个基本策略,基于 ,需对其预测值进行调整有三类做法:第一类是直接对训练集里的反类样例进行 “欠采样”undersampling , 即去除欠采样亦称“下采样” (downsampling), 过采样亦称"上采样" (upsam pling).。一些反例使得正、反例数目接近,然后再进行学习;第二类是对训练集里的正类样例进行 “过采样" oversampling , 即增加一些正例使得正、反例数目接近,然后再进行学习;第三类则是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将上式 嵌入到其决策过程中,称为 “阈值移动”threshold-moving。