统计学习导论 - 基于R的应用 学习笔记
Chapter 1 导论
统计学习是什么:
关于估计ƒ的一系列方法
Y=f(x)+ξ
f:X 提供给 Y 的系统信息,是 x 的函数
ξ:随机误差项;均值为0,且与 X 独立
统计学习的目的:
- prediction 预测:预测ƒ
通过现有的输入集 X ,获取输出 Y
Ŷ =f̂ (X)
f̂ 表示f 的预测, Ŷ 表示 Y 的预测值。
在这个式子中,f̂ 是黑箱。表示一般意义下,如果该黑箱能够提供准确的预测 Y, 则并不十分追求 f 的准确形式。
Ŷ 作为 Y 的预测,精确度取决于两个量:可约误差、不可约误差ξ
ξ 包含了对预测 Y 有用但却不可直接观测的变量信息:由于没有测量它们,所以 f 不能使用这些变量去预测。
例如:某个病人不良反应的风险也许会在一天内很不一样,比如药物的药效本身在设计上随着一天内服药环境的温度和湿度的不同而不同,或者风险与病人当天服药的情绪状态有关。
- inference 推断:Y和X的关系
哪些预测变量与响应变量有关? 通常情况下用于预测的变量中只有一小部分与 Y 充分有关,从一大组可能的变量中根据应用的需要识别一些重要的预测因子是很有必要的。
响应变量与每个预测变量之间的关系是什么?
Y 与每个预测变量的关系能否用一个线性方程概括&#