Generalized Linear Models 是scikit-learn的基础知识部分。其中主要讲述了广义线性模型。
我个人对统计的理解是Nothing is right,but sometime useful.这句话我也忘记从哪得到的,当时它解释了我许久的困惑,虽然我并不是研究统计学的。我也曾一度认为有人做出某种假设估计是为了行文的方便?历史的经验?或者只是单纯的为了写论文。这些都是我很粗浅的理解,只是相信也有人也有过这样的疑问,我对统计的认识还是停留在浅层次的,相信随着学习的累积,这类问题将有更好的理解,毕竟这些都是前人总结的宝贵经验。
以下内容包含了一些个人观点和理解,如有疏漏或错误,欢迎补充和指出。共同学习,共同进步。
以下这段话摘自这篇文章。http://www.zhihu.com/question/20587681 主要讲述了频率学派和贝叶斯学派,这两个学派的争论是关乎哲学和统计的。
这是比较关键的部分,我认为有必要把这两个学派简要的介绍下。
直至今日,关于统计推断的主张和想法,大体可以纳入到两个体系之内,其一叫频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。另一派叫做贝叶斯学派,他们把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。
两学派各有其信仰、内在逻辑、解释力和局限性,从20世纪上半页至今,两大学派的辩论从未停歇,但分歧如故。贝叶斯学派的发展在二十世纪滞后于频率学派,甚至现今主流统计学教材仍然以频率学派的理论框架为主,贝叶斯理论通常一笔带过。这或许受到Karl Pearson,Sir Ronald A. Fisher,Egon Pearson(Karl Pearson的儿子)和Jerzy Neyman等二十世纪上半叶的大统计学家的影响,这些当时具有话语权的大统计学家并不认可贝叶斯理论(尽管一些人的文章里被怀疑使用了贝叶斯的思想)。
Ordinary Least Squares
数学上的说法叫最小二乘法,据说天才数学家高斯很小就想到这个算法,真的很了不起。 1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,因此被称为高斯-马尔可夫定理。最小二乘法也用于广义线性模型的学习。为了遵从scikit-learn 原文,这里假设X为样本矩阵,每一行为一样本,某一列对应于随机变量(特征),ω代表参数向量(列向量),y(列向量)代表输出。
这个公式很经典,它体现了一种拟合程度,如果X是一堆样本,在空间中可以画出若干片数据云,目的是想找一个超平面去很好的逼近数据云。那么ω对应这个超平面的法方向和截距。
这里给出一种适合机器学习理解的方式
这里体现了频率学派公式的写法,“;”代表视ω为固定的参数,而不是随机变量,所以这里公式的含义就是给定随机变量x,以ω为参数的概率密度。另外这里也体现了中心极限定律,可以参考http://blog.csdn.net/u013894176/article/details/44536205,接下来进行大家熟悉的ML估计:
这里注意δ对于参数ω的求解是无影响的,所以maxinum l(ω)上式也就等价于
这种理解方式是我在《机器学习》教程中体会的,但这也是否暗含着当我尝试用最小二乘法的时候,需要数据某种程度上是近似高斯分布的呢?我不太确定,希望有朋友给予解答。另外,运用该算法可以考虑对数据集X进行标准化,可以参考http://blog.csdn.net/u013894176/article/details/44562897
值得一提的是,出于考虑容易泛化和特征选择等原因的考虑,有时候会增加某些正则项,优化算法里叫惩罚因子。该算法又有相应的变种,下面是比较主要的。
Ridge Regression
Lasso
http://blog.csdn.net/zouxy09/article/details/24971995