事实证明,寒假在家也并不能高效工作,年前准备过年,年后没事了,想动手却冻手,幸好姥姥家里暖和,过年姥姥又伤风感冒,姥姥今年74,姥爷今年81,今天本来到邢台的,但是放心不下又回来了,愿姥姥姥爷健康长寿,别无他求。
第 3 章 线性模型
3.1 基本形式
给定由d个属性描述的实例
x=(x1;x2;...;xd)
,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即
f(x)=w1x1+w2x2+...+wdxd+b
用向量形式写成
f(x)=wTx+b
.
由于
w
直观表达了个属性在预测中的重要性,因此线性模型有很好的可解释性。
3.2 线性回归
给定数据集
D={(x1,y1),(x2,y2),...,(xm,ym)}
,其中
xi=(xi1;xi2;...;xid),yi∈R
. “线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性,若属性值间存在“序”关,可通过连续化将其转化为连续值;若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量。
先考虑最简单的情形:输入属性的数目只有一个
线性回归试图学得
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使 E(w,b)=∑mi=1(yi−wxi−b)2 最小化的过程,称为线性回归模型的最小二乘“参数估计”。将 E(w,b) 分别对w和b求导,得
更一般的情形,样本由d个属性描述
此时我们试图学得
把数据集D表示为大小为 m×(d+1) 大小的矩阵 X ,
再把标记也写成向量形式 y=(y1;y2;…;ym) ,则类似均方误差,有
令 Ew^=(y−Xw^)T(y−Xw^) ,对 w^ 求导得到
当 XTX 为 满秩矩阵时,令上式为零可得
然而,现实任务中 XTX 往往不是满秩矩阵,此时可解出多个 w^ 。选择哪一个解作为输出,将由悬系算法的归纳偏好决定,常见的做法是引入正则化项。
线性模型的变形
线性模型的预测值逼近真是标记y时,就得到线性回归模型。
线性回归模型简写为
令模型预测值逼近y的衍生物,例如: lny=wTx+b ——”对数线性回归”,实质上在求取输入空间到输出空间的非线性函数映射。
广义线性模型
考虑单调可微函数g(.),令
y=g−1(wTx+b)。
3.3 对数几率回归
上一节讨论使用线性模型进行回归学习,对于分类任务,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对于二分类任务,可通过“单位阶跃函数”把线性回归模型产生的预测值
z=wTx+b
对应到输出标记
y∈{0,1}
。
但是单位阶跃函数不连续,不可直接作为“广义线性模型”中的 g−(.) ,可用对数几率函数
对数几率函数是一种“Sigmoid函数”,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。
将对数几率函数代入
若将y视为样本 x 作为正例的可能性,则1-y时期反例可能性,故“对数几率”为:
小结:(1)式是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率回归”,是一种分类学习方法。
优点:
- 直接对分类可能性进行建模,无需实现假设数据分布,这样就避免了假设分布不准确所带来的问题。
- 不仅预测出“类别”,还可得到近似概率预测。
- 对率函数是任意阶可导的凸函数,现有的许多数值优化算法都可直接用于求取最优解。
确定(1)中的w和b(这里不太懂)
若将式(1)中的y视为类后验概率估计p(y=1|x),则
于是,通过“极大似然法”估计w和b。对率回归模型最大化“对数似然”
为便于讨论,令 β=(w,b),x^=(x;1), 则 wTx+b 可简写为 βTx^ .再令 p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1−p1(x^;β) ,则(2)式中的似然项可重写为
最小化(2)式等价于最小化
3.4 线性判别分析
Linear Discriminant Analysis,LDA 一种经典的线性学习方法,用于二分类问题。亦乘“Fisher”判别分析。
LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
假设条件:给定数据集
D={(xi,yi)}mi=1,yi∈{0,1}
,令
Xi、μi、Σi
分别表示第
i∈{0,1}
类示例的集合、均值向量、协方差矩阵。
思想实现:欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即
wTΣ0w+wTΣ1w
尽可能小;而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即
||wTμ0−wTμ1||22
尽可能大。即最大化下式
以及“类间散度矩阵”
则式(3)可重写为
这就是LDA欲最大化的目标,即 Sb 与 Sw 的“广义瑞利商”