本文章是对周志华机器学习在学习过程中的笔记以及理解
线性回归
线性模型即学得一个与输入维数相同的向量,通过点积加偏置的来预测函数,即:
向量形式:
由于w直观的表达了各属性在预测中的重要性,所以线性模型具有很好的可解释性。
线性回归要做的就是:
而我们要做的是确定w和b使均方误差尽可能小,即(也可以用极大似然法得到):
(1)
我们可以将该式子看成是w和b的函数,对其求导来求出w和b,然后得到其最小值(为何直接求导得到的是最小值而不是最大值,因为如果是凸函数,导数为0的地方即为最小值,而判断其是不是凸函数,可以用其二阶海塞矩阵,如果是半正定的,就可以确定是凸函数),最终得到:
不难看出: ,这样便可以求得w,b
多元线性回归:
=,
将此式子带入到(1)中:
同理,我们对w求导 : (2)
这里用到的是矩阵微分求导的知识,感兴趣的可以去查阅资料学习,主要就用了两个公式
由于设计矩阵的逆运算,先对一种简单的情况讨论,为满秩矩阵,令(2)为0可得
这样便可求得,不是满秩矩阵我目前也不会,等我会了再补充。
广义线性模型:
g(y)与x之间有线性关系.
Logistics 回归
这是一种分类模型,常用的即S函数 (3)
,
我们之所以不用分段函数直接表示,主要是因为这样的S函数是单调可微。
对于上面的,一种很经典的变化如下:
对这种形式做变化可以得到:
这种形式称为对数几率,同样我们还是需要确定式子中的w和b,将y视为类后验概率估计p(y=1|x),则该式子可以写成:
于是可得:
,
采用极大似然估计():
这种连乘之后我们再求导会非常麻烦,对其取对数处理(都是增函数,极值点一样):
我们可以将此式子合并一下:
最后带入可得:
该式子可以通过经典的数值优化算法,如梯度下降法和牛顿法
线性判别分析
线性判别分析的思想(LDA):设法将样例投到一条直线上,使得同类样例的投影尽可能的接近,异类样例的投影点尽可能的原理。
若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为和,两类样本的协方差分别为和,我们需要将同类样例投影点的协方差尽可能小,让中心点之间的距离尽可能的大:
定义类内散度矩阵:
类间散度矩阵:
则J可以重新写成:
这就是与的广义瑞利商,现在只需求出w的方向即可,令,则原式子可以等价于:
再由拉格朗日数乘法,上个式子等价于:
可得: ,
这样便可以求得w的方向.