统计学习入门简介

最新推荐文章于 2024-08-28 10:34:03 发布

qq_37353305

最新推荐文章于 2024-08-28 10:34:03 发布

阅读量548

点赞数

分类专栏： ML with Python 文章标签：机器学习

本文链接：https://blog.csdn.net/qq_37353305/article/details/122356201

版权

ML with Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

统计学习入门简介

传统的统计学习 (机器学习) 大体上有三个主要的任务：

回归 (regression)
分类 (classification)
聚类 (clustering)

一般来说，回归和分类属于监督学习 (supervised learning)，我们有训练集 (train data) 和测试集 (test data)，有标签 (label) 来指导学习。我们有一组解释变量，输入 (input) $x$ ，有我们希望预测的结果变量，标签 $y$ ，我们希望找到一个方程 $f$ ，它能完美地拟合 $x$ 和 $y$ ，也就是 $y = f (x)$ ，但这在现实数据上是不可能做到的，因为有太多我们无法观测到的因素 (factor)。我们可以把这些无法观测到的factors的总和看成是随机误差 $\varepsilon$ ，这样我们就可以考虑一个更简单的任务： $y=f(x)+\varepsilon$ 。

当 $y$ 是连续变量的时候，这是一个回归问题。当 $y$ 是离散情形时，这是一个分类问题。

统计学家对上述任务有过非常深入且海量的研究。一个简单的做法是：

假设 $\varepsilon$ 来自某一个分布，比如 $\mathcal{N}(0,\sigma^2)$ 。
假设 $f$ 来自某个函数空间 $\mathcal{F}$ ，比如 $\mathcal{F}_{\beta,\alpha} =\{x^\tau\beta+\alpha:\beta\in\mathbb{R}^p, \alpha\in\mathbb{R}\}$ 。
假设 $x$ 是固定的，不具有随机性。
确定估计方法，如极大似然估计，得到 $f$ 的估计 $\hat{f}$ ，研究 $\hat{f}$ 的大样本性质，建立置信区间。

为了做统计推断 (inference)，统计学家往往会给数据的生成机制 (DGP) 以及模型给出非常强的假设，比如数据是总体 (population) 的一个简单随机抽样，且独立同分布 (I.I.D)，比如 $\mathcal{F}$ 是一个有限维参数空间，比如误差来自一个正态分布。

统计学把对随机数据 $y$ 假设的分布叫做model，由于我们对 $\varepsilon$ 的分布的假设和对 $\mathcal{F}$ 的假设决定了 $y$ 的分布假设，所以我们对 $\varepsilon$ 和 $\mathcal{F}$ 的假设一起决定了一个model。

为了使model能更好地适应真实数据，我们可以考虑不同的model。最为简单但限制的是参数模型 (parametric model)，如 $y|x\sim\mathcal{N}(x^\tau\beta,\sigma^2)$ 。参数模型研究起来简单，有很好的理论性质，但是数据很可能不来自于这个模型。半参模型 (semiparametric model) 是比参数模型更为general的一个model，模型中既有有限维的参数，也有无限维的参数，如 $\mathcal{F}_{f,\beta}=\{f(x^\tau\beta):\beta\in\mathbb{R}^p,f\in \mathbb{C}^1(\mathbb{R})\}$ ， $\mathrm{E}[\varepsilon|x]=0$ 。

和传统的统计学相似，机器学习也是在寻找这么一个 $\hat{f}$ 希望能良好地拟合 $x$ 和 $y$ ，但不同之处在于

重算法结果应用而非大样本理论性质。
重模型的预测能力而非统计推断和假设检验。
机器学习对误差 $\varepsilon$ 的分布往往没有假设，只考虑 $\mathcal{F}$ 是什么样的，因为机器学习不那么关心从似然角度出发的估计方法。
很多机器学习方法如KNN，树，深度学习等，由于参数多，解法灵活，很难用特定的数学语言去描述，我们往往把它们称为非参数模型 (nonparametric model)。
由于没有特定的理论进行指导，经验对于机器学习更为重要，因此调参在机器学习有决定性的作用。
过拟合和欠拟合的问题在机器学习中占有重要的地位。

据我观察，使用机器学习方法拟合模型的步骤通常为：

假设某个函数空间 $\mathcal{F}$ ，其实也就是确定方法，如logistic regression。
确定优化准则，也就是确定损失函数 $L(\cdot,y)$ 。
确定优化问题，如， $\hat{f}=\argmin_{f\in\mathcal{F}}\sum_{i\in\mathbb{I}}L(f(X_i),y)$ 。
设计算法，因为优化问题很可能是一个非凸问题，不能用牛顿法解决。
分割数据为训练集和验证集。
在训练集上通过优化问题得到估计 $\hat{f}$ ，在验证集上检验 $\hat{f}$ 的预测能力。有时需要使用验证集来决定 $\hat{f}$ 的参数。
将得到的 $\hat{f}$ 用于测试集。

虽然机器学习通常对误差的分布通常没有假设，但是同一个机器学习方法在不同的数据集上的表现可能会大相径庭，因此不同的机器学习方法可能适用于不同的数据集，我们需要很清晰地了解什么样的方法对什么类型的数据管用。

qq_37353305

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习入门简介

统计学习入门简介传统的统计学习 (机器学习) 大体上有三个主要的任务：回归 (regression)分类 (classification)聚类 (clustering)一般来说，回归和分类属于监督学习 (supervised learning)，我们有训练集 (train data) 和测试集 (test data)，有标签 (label) 来指导学习。我们有一组解释变量，输入 (input) xxx，有我们希望预测的结果变量，标签 yyy，我们希望找到一个方程 fff，它能完美地拟合 xxx
复制链接

扫一扫

专栏目录