统计学习导论之读书笔记(一)统计学习
1 统计学习概念的引入
X X X常称为: input variable(输入变量), predictor(预测变量),independent variable(自变量), feature(属性), variable (变量)
Y Y Y常称为:response variable(响应变量),dependent variable(因变量)
一般情况下,假设观察到一个定量的响应变量Y和p个不同的预测变量,分别记为X 1 _1 1、X 2 _2 2、X p _p p。假设这个Y和X =(X1,X2,…,Xp)有一定的关系,可以表达成如下的形式:
Y = f ( x ) + ϵ   \ Y = f(x) + \epsilon \, Y=f(x)+ϵ
这里的 f f f是X 1 _1 1,X 2 _2 2,…,X p _p p的函数,它是确定的但是也是未知的, ϵ \epsilon ϵ是随机误差项(error term),与X独立,且均值为0。 ϵ \epsilon ϵ也叫不可约误差(inreducible error)。
实际上,统计学习就是关于估计f的一系列方法。
2 需要估计f的两种情况
2.1 用于预测(prediction)
通过下式去预测 Y Y Y:
Y ^ = f ^ ( x )   \ \hat{Y} = \hat{f}(x)\, Y^=f^(x)
f ^ \hat{f} f^表示 f f f的预测, Y ^ \hat{Y} Y^表示 Y Y Y的预测,这里的 f ^ \hat{f}