第三章 线性模型
3.1 基本形式
- f(x) = ω1 X1 + ω2 X2 十...+ωdXd + b , 也可以写成:f(x)=w的转置矩阵*x+b w就是反映各部分重要程度的权值,so线性结构有很好的可理解性(也叫可解释性)
- 许多功能强大的非线性模型可以在线性模型的基础上通过引入层级结构或者高位映像得到
3.2 线性回归--"线性回归" (linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记.
对于离散属性,如果属性值之间存在序的关系(这里的序的关系暂且不是太明白,貌似是离散数学中的,没有找到相关解释,mark一下),可以通过连续化,将其转换为连续的。例如,高和矮,可以转换为{1.0,0.0},如果不含有序的关系,则可以转换成k维向量,例如瓜的取值为西瓜,南瓜,冬瓜,就可以变为:(1,0,0)(0,1,0)(0,0,1).
线性回归的目的就是学习w,b使得f(x)尽量的贴合y的值,所以关键就在于如何衡量f(x)和y之间的误差了。
使用均方差最小化的过程就是最小二乘法,即找到一根直线,使得所有的点到直线的欧式距离(在二维和三维空间中的欧氏距离就是两点之间的实际距离)和最短。
另外,线性回归就是为了让f(x)逼近y,那么,有的时候可以将f(x)逼近y 的衍生物而不是y来解决一些非线性的问题。例如,设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标, 即lny = wTx +b ,它实际上是在试图让e的wTx次方+b逼近y ,虽然在形式上仍是线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射。
更一般地,考虑单调可微函数g()g(·),令
这样得到的模型称为“广义线性模型”,其中函数g()g(·)称为“联系函数”(link function)。显然,对数线性回归是广义线性模型在g()=ln()g(·)=ln(·)时的特例。
3.3 对数几率回归
- 利用上述的广义线性模型,我们也可以解决分类为问题。分类问题输出的是离散的值,例如二分类问题,输出的是0,1.那么我们就可以找一个可微单调函数,使得分类任务的真实标记y与线性回归模型的预测值联系起来。
- 这时候可以选取阶跃函数。然而这并不连续,所以找一个跟他长得很像的连续的,就是sigmoid函数(是长得像s的函数中的一个重要代表)。
- 下面就开始用对数几率函数进行w和b的推导了,推导的数学过程看不懂,所以跳过。
3.4 线性判别分析LDA
- LDA 的,思想非常朴素: 给定训练样例集7 设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别.
- 若将W 视为一个投影矩阵,则多分类LDA 将样本投影到N-1 维空间,N-1 通常远小子数据原有的属性数.于是,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术
- 中间用来推导的都省略,数学不好真的看不懂……要命