统计学习入门简介

统计学习入门简介

传统的统计学习 (机器学习) 大体上有三个主要的任务:

  1. 回归 (regression)
  2. 分类 (classification)
  3. 聚类 (clustering)

一般来说,回归和分类属于监督学习 (supervised learning),我们有训练集 (train data) 和测试集 (test data),有标签 (label) 来指导学习。我们有一组解释变量,输入 (input) x x x,有我们希望预测的结果变量,标签 y y y,我们希望找到一个方程 f f f,它能完美地拟合 x x x y y y,也就是 y = f ( x ) y=f(x) y=f(x),但这在现实数据上是不可能做到的,因为有太多我们无法观测到的因素 (factor)。我们可以把这些无法观测到的factors的总和看成是随机误差 ε \varepsilon ε,这样我们就可以考虑一个更简单的任务: y = f ( x ) + ε y=f(x)+\varepsilon y=f(x)+ε

y y y 是连续变量的时候,这是一个回归问题。当 y y y 是离散情形时,这是一个分类问题。

统计学家对上述任务有过非常深入且海量的研究。一个简单的做法是:

  1. 假设 ε \varepsilon ε 来自某一个分布,比如 N ( 0 , σ 2 ) \mathcal{N}(0,\sigma^2) N(0,σ2)
  2. 假设 f f f 来自某个函数空间 F \mathcal{F} F,比如 F β , α = { x τ β + α : β ∈ R p , α ∈ R } \mathcal{F}_{\beta,\alpha} =\{x^\tau\beta+\alpha:\beta\in\mathbb{R}^p, \alpha\in\mathbb{R}\} Fβ,α={xτβ+α:βRp,αR}
  3. 假设 x x x 是固定的,不具有随机性。
  4. 确定估计方法,如极大似然估计,得到 f f f 的估计 f ^ \hat{f} f^,研究 f ^ \hat{f} f^ 的大样本性质,建立置信区间。

为了做统计推断 (inference),统计学家往往会给数据的生成机制 (DGP) 以及模型给出非常强的假设,比如数据是总体 (population) 的一个简单随机抽样,且独立同分布 (I.I.D),比如 F \mathcal{F} F 是一个有限维参数空间,比如误差来自一个正态分布。

统计学把对随机数据 y y y 假设的分布叫做model,由于我们对 ε \varepsilon ε 的分布的假设和对 F \mathcal{F} F 的假设决定了 y y y 的分布假设,所以我们对 ε \varepsilon ε F \mathcal{F} F 的假设一起决定了一个model。

为了使model能更好地适应真实数据,我们可以考虑不同的model。最为简单但限制的是参数模型 (parametric model),如 y ∣ x ∼ N ( x τ β , σ 2 ) y|x\sim\mathcal{N}(x^\tau\beta,\sigma^2) yxN(xτβ,σ2)。参数模型研究起来简单,有很好的理论性质,但是数据很可能不来自于这个模型。半参模型 (semiparametric model) 是比参数模型更为general的一个model,模型中既有有限维的参数,也有无限维的参数,如 F f , β = { f ( x τ β ) : β ∈ R p , f ∈ C 1 ( R ) } \mathcal{F}_{f,\beta}=\{f(x^\tau\beta):\beta\in\mathbb{R}^p,f\in \mathbb{C}^1(\mathbb{R})\} Ff,β={f(xτβ):βRp,fC1(R)} E [ ε ∣ x ] = 0 \mathrm{E}[\varepsilon|x]=0 E[εx]=0

和传统的统计学相似,机器学习也是在寻找这么一个 f ^ \hat{f} f^ 希望能良好地拟合 x x x y y y,但不同之处在于

  1. 重算法结果应用而非大样本理论性质。
  2. 重模型的预测能力而非统计推断和假设检验。
  3. 机器学习对误差 ε \varepsilon ε 的分布往往没有假设,只考虑 F \mathcal{F} F 是什么样的,因为机器学习不那么关心从似然角度出发的估计方法。
  4. 很多机器学习方法如KNN,树,深度学习等,由于参数多,解法灵活,很难用特定的数学语言去描述,我们往往把它们称为非参数模型 (nonparametric model)。
  5. 由于没有特定的理论进行指导,经验对于机器学习更为重要,因此调参在机器学习有决定性的作用。
  6. 过拟合和欠拟合的问题在机器学习中占有重要的地位。

据我观察,使用机器学习方法拟合模型的步骤通常为:

  1. 假设某个函数空间 F \mathcal{F} F,其实也就是确定方法,如logistic regression。
  2. 确定优化准则,也就是确定损失函数 L ( ⋅ , y ) L(\cdot,y) L(,y)
  3. 确定优化问题,如, f ^ = arg min ⁡ f ∈ F ∑ i ∈ I L ( f ( X i ) , y ) \hat{f}=\argmin_{f\in\mathcal{F}}\sum_{i\in\mathbb{I}}L(f(X_i),y) f^=fFargminiIL(f(Xi),y)
  4. 设计算法,因为优化问题很可能是一个非凸问题,不能用牛顿法解决。
  5. 分割数据为训练集和验证集。
  6. 在训练集上通过优化问题得到估计 f ^ \hat{f} f^,在验证集上检验 f ^ \hat{f} f^ 的预测能力。有时需要使用验证集来决定 f ^ \hat{f} f^ 的参数。
  7. 将得到的 f ^ \hat{f} f^ 用于测试集。

虽然机器学习通常对误差的分布通常没有假设,但是同一个机器学习方法在不同的数据集上的表现可能会大相径庭,因此不同的机器学习方法可能适用于不同的数据集,我们需要很清晰地了解什么样的方法对什么类型的数据管用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值