ISLR_StatisticalLearning

最新推荐文章于 2022-01-28 14:18:35 发布

Young_Gy

最新推荐文章于 2022-01-28 14:18:35 发布

阅读量1k

点赞数

文章标签： ISLR

本文链接：https://blog.csdn.net/Young_Gy/article/details/48830541

版权

Statistical Learning

why estimate f

用来预测
预测的时候可以将 $\hat{f}$ 当成一个black box来用，目的主要是预测对应x时候的y而不关系它们之间的关系。
用来推断
推断的时候， $\hat{f}$ 不能是一个black box，因为我们想知道predictor和response之间的关系，用来做特征提取，关系分析等。

根据目的是预测还是推断或者两者结合选择不同的模型，需要做一下trade off。

how estimate f

参数方法
它将确定了f的形式，将估计p维的f函数降为了对一些参数的估计
先构建参数表达式，然后用参数表达式去训练数据，例如linear regression。
优点是模型和计算简单，缺点是预先确定了f的形式，可能会和真实的f相差较大。
非参数方法
对f的形式并未做假设，它要求得到的结果与训练集越接近越好，但是保证模型不要太过复杂。
优点是适用于更多的f，能够得到更高的正确率，缺点是因为是无参数估计，所以需要的数据量是很大的。

模型精度和解释的权衡

这里写图片描述
模型越复杂，对于模型的可解释度越小。

如果需要对模型进行高精度预测的话，比如股票市场，可以采用更flexible的方法。
然而，在股票市场，高精度的方法有时候效果更差，原因是对训练数据产生了过拟合。

监督和非监督学习

注意有 SEMI-SUPERVISED LEARNING的问题

分类和回归问题

注意很多机器学习的方法，既可以应用到回归问题，也可以应用到分类问题。只要qualitative的对象被合适地编码。

Assessing model Accuracy

Measuring quality of fit

这里写图片描述

这里写图片描述
模型更flexibility，degrees of freedom越大。
具体来说，更flexibility，意味着vc维更大，可以shatter的点更多，所以effective points更多， degrees of freedom更大也就是问题的规模更大，模型的选择更多。
模型的选择更多（Hsets更大），这样可以选出训练集MSE最小的点，但是因为VC维的增大，且数据量的有限（VC bound的标准），并不可以保证测试集和训练集的MSE很接近，因此会造成测试集MSE很大，造成过拟合的现象。

解决这个问题，一般采用cross-validation，将训练集的一部分用作测试集，以此来估计 $E_{out}$ ，避免过拟合现象。

bias-variance trade-off

这里写图片描述

一般来说，测试集的MSE会出现U shape。
U shape，是两种因素共同作用的结果：
1. bias和variance
2. vc维增大后的 $E_{in} \approx 0$ 和 $E_{in} \approx E_{out}$

MSE有一个最小值， $Var(\epsilon)$ 。

variance refers to the amount by which $\hat{f}$ would change if we estimated it using a different traing data set.
不同的训练集预测出来的 $f$ 相差的多少叫做variance，训练集中一个数据的小改变造成 $\hat{f}$ 变化很大，那么这个模型的variance就很大。

bias refers to the error that is introduced by approximating a real-life problem.
比如，很多问题不是线性的，如果用线性回归来做，那么与实际问题的关系就会相差很大，这样即使数据量再大也无济于事。