统计学习概论与ROC曲线

本文概述了统计学习的各个关键概念,包括模型、策略和算法。介绍了监督学习、无监督学习和强化学习的基本分类,并讨论了概率模型与非概率模型、线性与非线性模型。重点阐述了统计学习的三要素:模型(如条件概率分布和决策函数)、策略(如损失函数、风险函数和正则化)以及算法。文章还涵盖了模型评估与选择,包括训练误差、测试误差、过拟合和交叉验证。最后,提到了生成模型与判别模型的区别,并探讨了监督学习中的ROC曲线和PR曲线在评估分类性能中的作用。
摘要由CSDN通过智能技术生成

第一节 统计学习

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。

统计学习研究的对象是数据。

统计学习目的是对数据进行预测与分析。

统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。
统计学习由监督学习(supervised learning)、无监督学习(unsupvised learning)和强化学习(reinforcement learning)等组成。

统计学习三要素:模型(model)、策略(strategy)和算法(algorithm)。

实现统计学习步骤:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则。即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优的模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

第二节 统计学习的分类

基本分类

  1. 监督学习
    监督学习是指在标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

  2. 无监督学习
    无监督学习是指在无标注数据中学习预测模型的机器学习问题。无标注数据是自然界中得到的数据,预测模型表示数据的类别、转换和概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

  3. 强化学习
    强化学习是指智能系统与在环境的连续互动中学习的最优行为策略的机器学习问题问题。假设智能系统与环境的互动基于马尔科夫决策过程,智能系统能观测到的是与环境互动得到的数据预测。强化学习的本质是学习最优的序贯决策。

按模型分类

  1. 概率模型与非概率模型
    在监督学习中,概率模型取条件概率分布形式 P ( y ∣ x ) P(y|x) P(yx),非概率模型取函数形式 y = f ( x ) y = f(x) y=f(x) 。在无监督学习中,概率模型是取条件概率分布形式 P ( z ∣ x ) P(z|x) P(zx) P ( x ∣ z ) P(x|z) P(xz) ,非概率模型取函数形式 z = g ( x ) z = g(x) z=g(x) 。在监督学习中,概率模型是生成模型,非概率模型是判别模型。

  2. 线性模型与非线性模型

  3. 参数模型与非参数模型

第三节 统计学习方法三要素

1. 模型

统计学习首先要考虑的就是学习什么样的模型。在监督学习过程中,模型就是所有学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。
假设空间用 F = { f ∣ Y = f ( X ) } . (1.1) \tag{1.1}\mathscr{F} = \left\{f|Y = f(X)\right\}. F={ fY=f(X)}.(1.1)
其中, X X X Y Y Y是定义在输入空间 X \mathscr{X} X 和输出空间 Y \mathscr{Y} Y 上的变量 。这时 F \mathscr{F} F 通常是由一个参数向量决定的函数簇:
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } . (1.2) \tag{1.2}\mathscr{F} = \left\{f|Y = f_{\theta}(X), \theta \in \mathbf{R}^n\right\}. F={ fY=fθ(X),θRn}.(1.2)
参数向量 θ \theta θ 取决于 n n n 维欧式空间 R n \mathbf{R}^n Rn,称为参数空间。

假设空间也可以定义为条件概率的集合:
F = { P ∣ P ( Y ∣ X ) } . (1.4) \tag{1.4}\mathscr{F} = \left\{P|P(Y|X)\right\}. F={ PP(YX)}.(1.4)
其中, X X X和和 Y Y Y是定义在输入空间 X \mathscr{X} X 和输出空间 Y \mathscr{Y} Y 上的随机变量。这时 F \mathscr{F} F 通常是由一个参数向量决定的条件概率分布簇:
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } . (1.5) \tag{1.5}\mathscr{F} = \left\{P|P_{\theta}(Y|X), \theta\in\mathbf{R}^n\right\}. F={ PPθ(YX),θRn}.(1.5)
参数向量 θ \theta θ取决于 n n n 维欧式空间 R n \mathbf{R}^n Rn,也称为参数空间。

2. 策略

1. 损失函数和风险函数

损失函数是 f ( X ) f(X) f(X) Y Y Y的非负实值函数,记住 L ( Y , f ( X ) ) . L(Y, f(X)). L(Y,f(X)).

统计学习常用的损失函数有以下几种:

  1. 0-1损失函数
    L ( Y , f ( X ) ) = { 1 ,   Y ≠ f ( X ) 0 ,   Y = f ( X ) (1.6) \tag{1.6}L(Y, f(X)) = \begin{cases} 1, \ Y\neq f(X) \\[3ex] 0, \ Y = f(X) \end{cases} L(Y,f(X))=1, Y=f(X)0, Y=f(X)(1.6)
  2. 平方损失函数
    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 (1.7) \tag{1.7}L(Y, f(X)) = (Y-f(X))^2 L(Y,f(X))=(Yf(X))2(1.7)
  3. 绝对损失函数
    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ (1.8) \tag{1.8}L(Y, f(X)) = |Y-f(X)| L(Y,f(X))=Yf(X)(1.8)
  4. 对数损失函数或对数似然损失函数
    L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) (1.9) \tag{1.9}L(Y, P(Y|X)) = -\log P(Y|X) L(Y,P(YX))=logP(YX)(1.9)
    损失函数值越小,模型越好。由于模型的输入、输出 ( X , Y ) (X, Y) (X,Y) 是随机变量,遵循联合分布 P ( X , Y ) P(X, Y) P(X,Y) ,所以损失函数的期望是:
    R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y (1.10) \tag{1.10} \begin{aligned} R_{exp}(f) &= E_{P}\left[ L(Y, f(X))\right]\\ &=\int_{\mathscr{X}\times\mathscr{Y}}L(y, f(x))P(x,y)dxdy \end{aligned} Rexp(f)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值