总结自刘东老师《统计学习》课程,教材选用周志华老师《机器学习》西瓜书
每节都给了小结,可以快速了解每节内容
线性回归
From 1 to 2
从简单的问题入手
问题:珠穆朗玛峰的高度是多少?
答案1:给出一个变量值:8848米
答案2:从数据中获取知识
有一系列测量值{
y 1 , y 2 , . . . , y n y_1,y_2,...,y_n y1,y2,...,yn},则给出结果
y ^ = y 1 + y 2 + . . . + y n n \hat{y}=\frac{y_1+y_2+...+y_n}{n} y^=ny1+y2+...+yn
几何平均的意义:
1.最小二乘法的估计结果
2.统计解释:极大似然的估计结果(将珠穆朗玛峰的高度看作高斯分布,这时不仅能估计均值,还能估计方差)
考虑相关变量
珠穆朗玛峰高度和四季有关,则定义
y = a x + b y=ax+b y=ax+b
y是高度,x是季节,将春夏秋冬简单的量化为0,1,2,3,则采样可以得到类似如下的图
通过最小二乘法可以得到如下的拟合结果
显然这个结果并不够好,那么将变量重新映射为
夏季 | 春季/秋季 | 冬季 |
---|---|---|
1 | 2 | 3 |
那么拟合的结果会变为
统计解释
将(y-(ax+b))看作一个0均值的高斯分布变量,也可以用统计学的角度对其进行极大似然估计
小结
1 常用的均值估计与最小二乘法、极大似然估计的关系
2 最小二乘拟合与极大似然估计存在关联,但不存在因果关系
3 变量的重映射很重要!
正则化 Regularization
为什么要有正则化
对待估计的参数进行约束。
考虑上一节的问题,y=ax+b中,显然季节与珠穆朗玛峰高度变化的关系较小,这时就要对a的大小进行限定。
我们有2种约束方法:
1、给定a的范围,求最小平方误差的解
2、同时最小化最小平方误差和a的值
第一种,即有约束问题
min ∑ ( y i − ( a x i + b ) ) 2 , a 2 ≤ C \min\sum{(y_i-(ax_i+b))^2} ,\quad a^2≤C min∑(yi−(axi+b))2,a2≤C
第二种,即无约束问题
min ∑ ( y i − ( a x i + b ) ) 2 + λ a 2 \min\sum{(y_i-(ax_i+b))^2}+\lambda a^2 min∑(yi−(axi+b))2+λa2
这两种形式是等价的,也就是说有约束优化问题和无约束优化问题可以互相转化,这种转化通过添加(或减去)正则化项实现。
对于一般情况
min f ( x ) , s u b j e c t t o g ( x ) = 0 , h ( x ) ≤ 0 \min f(x),subject \quad to \quad g(x)=0,h(x)≤0 minf(x),subjecttog(x)=0,h(x)≤