线性模型
1 基本形式
;
向量形式:
;
优点:具有很强的可解释性(可理解性)
即每个因素前的系数可表示该因素的重要性。
2 线性回归
给定数据集
,其中
方便起见,假设,中仅含一个数据,则线性回归试图学到的就是
使得
求和b时,用均方误差最小化来进行模型求解,即“最小二乘法”
下式即为令均方差最小化
求解和b使最小化,称为最小二乘参数估计。分别将对和b求偏导,可得
一般地,需要建立的模型都是“多元线性回归”,即其中如同开篇中提到的一样,含有多个元素
这种模型解法与上述方法一致,也为最小二乘法,只是将其中变量变为矩阵形式。需要注意,由于实际解题过程中,可能会因为矩阵不是满秩阵导致解出的多个都可使均方误差最小化,这时,选取的最优解需要依靠算法的归纳偏好决定。
虽然线性回归形式简单,但它却有丰富的变化,如对数线性回归模型;
它的目的是使逼近y,虽然本质上仍未线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射。其图示如下
图1 对数线性回归示意图
更一般地,考虑单调可微函数,令
得到“广义线性模型”,其中为“联系函数”,显然对数线性回归是广义线性回归在时的特例
3 对数几率回归
考虑到二分类问题,其输出标记,而预测值却是实值。需将实值转换为0/1值。最理想的是“单位跃迁函数”
0,z<0;
y= 0.5,z=0;
1,z>0,
其预测临界值判断如下图
图2 单位跃迁函数与对数几率函数
如图2,单位阶跃函数不连续,因此需要找到在一定程度上近似单位阶跃函数的“替代函数”,并希望它单调可微。对数几率函数用的是一个常用的替代函数:
将z带入,得
若将y记为样本x作为正例的可能性,则1-y即为x作为反例的可能性,所谓的“几率”则为,取对数则为“对数几率”,。
需注意,虽然这种模型名为“回归”,但它却是一种分类学习方法。优点:不仅预测出类别,还得到近似概率。
4 线性判别分析(Linear Discriminant nalys ,简称 LDA)
其核心思维为:设法将所有样例投影在一条直线上,使得同类样例投影点尽可能接近、异类投影点尽可能远离。将需要预测的数据也投影在这条已经得到的线上,根据其相距距离,判断其具体属于哪个类别。示意图如下