大部分统计学习问题分为以下两种类型:指导学习和无指导学习。对每一个预测变量
x
i
x_i
xi(i=1,…,n)都有相应变量的观测
y
i
y_i
yi。建模的目标是通过建立预测变量与响应变量的关系,精准预测响应变量或更好理解响应变量与预测变量的关系。
许多传统的统计学习方法,比如线性回归和逻辑斯谛回归,以及诸如广义可加模型、提升方法和支持向量机等比较现代的方法,都属于指导学习范畴。
对于无指导学习,只有预测变量的观测向量,这些向量没有相应的响应向量与之对应。聚类分析可以用到无指导学习。
半指导学习不提及。
我们习惯于将响应变量为定量的问题称为回归分析问题,而将具有定性响应变量的问题定义为分类问题。
- 贝叶斯分类器
- 贝叶斯决策边界
贝叶斯分类器将产生最低的测试错误率,称为贝叶斯错误率。
- K最近邻方法
- K最近邻分类器
线性回归
1.简单线性回归
假定X和Y之间存在线性关系,在数学上,又可以将这种线性关系记为:
Y
≈
\approx
≈
β
0
\beta_0
β0 +
β
1
\beta_1
β1X
有时会将公式称为Y对X的回归。
β
0
\beta_0
β0和
β
1
\beta_1
β1被称为模型的系数或参数。
最小二乘估计
总体回归直线
Y
≈
\approx
≈
β
0
\beta_0
β0 +
β
1
\beta_1
β1X +
ϵ
\epsilon
ϵ
2.多元线性回归
假设有p个不同的观测变量,则多元线性回归模型的形式为:
Y
≈
\approx
≈
β
0
\beta_0
β0 +
β
1
X
1
\beta_1X _1
β1X1+
β
2
X
2
\beta_2X_2
β2X2+ ···+
β
p
X
p
\beta_pX_p
βpXp+
ϵ
\epsilon
ϵ
最小二乘平面只是对真实总体回归平面的一个估计。我们可以计算置信区间以确定到 y ^ \hat{y} y^与f(X)的接近程度。
数据的非线性——残差图
- 离群点
- 高杠杆点
- 共线性
分类
逻辑斯谛回归
p(X) =
β
0
\beta_0
β0 +
β
0
\beta_0
β0X
使用逻辑斯谛函数
p(X) = e β 0 + β 1 X 1 + e β 0 + β 1 X \cfrac{e^{\beta_0+\beta_1X}}{1+e^{\beta_0+\beta_1X}} 1+eβ0+β1Xeβ0+β1X
二次判别分析
线性模型选择与正则化
- 子集选择
- 压缩估计
- 降维法
1.子集选择
最优子集选择,即对p个预测变量的所有组合分别使用最小二乘回归进行拟合。
逐步选择
- 向前逐步选择
向前逐步选择以一个不包含任何预测变量的零模型为起点,依次往模型中添加变量,直至所有的预测变量都包含在模型中。特别之处在于,每次只将能够最大限度提升模型效果的变量加入模型中。
- 向后逐步选择
以包含全部p个变量的全模型为起点,逐次迭代,每次移除一个对模型拟合结果最不利的变量。
选择最优模型
- C p C_p Cp
- 赤池信息量准则
- 贝叶斯信息准则(BIC)与调整 R 2 R^2 R2
2.压缩估计方法
使用对系数进行约束或加罚的技巧对包含p个预测变量的模型进行拟合,将系数估计值往零的方向压缩。
岭回归
lasso
lasso建立的模型与岭回归建立的模型相比更易于解释。lasso得到了一个稀疏模型———只包含所有变量的一个子集的模型。
3.降维方法
将预测变量进行变换,然后用转换之后的变量拟合最小二乘模型。
- 主成分
- 偏最小二乘
主成分分析是一种可以从多个变量中得到低维变量的有效方法。