两个重要观点:
最小二乘数学建模等价于高斯噪声最大释然估计统计建模
正则化最小二成等价于基于高斯噪声的最大化后验概率统计建模
几乎所有的机器学习方法也许建立之初没有什么统计解释,最后大家发现,都可以通过统计的原理解释。
基于概率分布的建模过程,基于概率分布的建模过程,发挥的淋漓尽致的就是graphic model。
我理解的最小二乘,无非就是求解模型参数的方法。
牛顿和你的理解是一样的,牛顿和你的理解是一样的。
而统计学家说ok:我给你个统计解释,只要是高斯噪声对应的从最大释然估计,就是最小二乘,所以这是统计建模。
如果你的模型是个线性回归,你的noise是拉普拉斯,如果用最小二成就完了。正确的应该用,最小一成。
LAD叫做,机器学习上面叫做=误差建模,统计上面=稳健估计。
===========================================
维灾:
两个方面
第一, 模型的复杂性。
第二, 几何体的难以想象的各种突变
由于维数很大,简单的例子就是如果我们有n个变量那么我们如果回归也有2^n个模型
第二, 几何体的难以想象的各种突变
这个地方没有很多经验我个人觉得比较难理解,你如何想象高维空间中的球体的数据,其实都集中在球壳附近。。。。。
如何想象高维空间的各种几何体,其实和三维空间中的完全不一样。我没有什么好的建议,如果大家真的想看看,就去学学Functional Geometrical Analysis.
===========================================
KL divergence:俗称KL距离,常用来衡量两个概率分布的距离。
===========================================