统计学习方法的基本概念

李航《统计学习方法》读书笔记

一、理论知识

定义
统计学习是关于计算机基于数据构建 概率统计模型 并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习。

  • 可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
  • 现在普遍提及的机器学习,往往是指统计机器学习。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
    • 监督学习:从标注数据中学习
    • 非监督学习:从无标注数据中学习
    • 半监督学习:少量标注数据+大量未标注数据
    • 强化学习:在智能系统与环境的连续互动中学习

特点

  • 统计学习的对象是数据,是数据驱动的学科。
  • 统计学习的目的是对数据进行预测与分析。
  • 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。

统计学习方法三要素
方法=模型+策略+算法,构建一种统计学习方法就是确定具体的统计学习三要素。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;——决策函数 / 条件概率
(3)确定模型选择的准则,即学习的策略;——经验风险最小化 / 结构风险最小化
(4)实现求解最优模型的算法,即学习的算法;——数值计算方法
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。

输入空间: 在监督学习中,将输入所有可能取值的集合称为输入空间。
输出空间: 在监督学习中,将输出所有可能取值的集合称为输出空间。
特征空间: 每个具体的输入是一个实例,通常由特征向量表示;所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征。
模型: 由输入空间到输出空间的映射。
假设空间: 映射的集合。

损失函数(代价函数): 预测错误程度的度量。
风险函数(期望损失): 模型关于联合分布的平均损失。
经验风险(经验损失): 模型关于训练样本集的平均损失。

  • 损失函数度量模型一次预测的好坏
  • 风险函数度量平均意义下模型预测的好坏

过拟合: 指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

模型选择的方法

  • 正则化:在经验风险上加一个正则化项,如 L 1 、 L 2 L1、L2 L1L2范数。
    • 正则化项一般是模型复杂度的单调递增函数
    • 正则化等价于结构风险最小化
  • 交叉验证:重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
    • 简单交叉验证
    • S折交叉验证
    • 留一交叉验证

监督学习方法分类

  • 生成方法:先由数据学习联合概率分布,再求出条件概率分布作为预测的模型——生成模型
    • 可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) ,判别方法不能
    • 学习收敛速度更快,即样本容量增加时,生成模型可以可以更快地收敛于真实模型
    • 适用于存在隐变量的情况,判别方法不能
  • 判别方法:由数据直接学习决策函数或者条件概率分布作为预测的模型
    • 直接面对预测,学习的准确率更高
    • 可以简化学习问题,对数据进行各种程度上的抽象、定义特征并使用特征

监督学习的应用

  • 分类问题:输出变量为有限个离散变量的预测问题。
    • 输出为类别
  • 标注问题:输入变量与输出变量均为变量序列的预测问题。
    • 输出为一个标记序列或状态序列——添加了标注的输入序列
  • 回归问题:输入变量与输出变量均为连续变量的预测问题。
    • 函数拟合,输出为与 x x x值相对应的 y y y

二、数学表达

训练集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋅ ⋅ ⋅ , ( x N , y N ) } T=\left\{ (x_1,y_1), (x_2,y_2), ···, (x_N,y_N) \right\} T={(x1,y1),(x2,y2),,(xN,yN)}

统计学习常用的损失函数:
(1)0-1损失函数
L ( Y , f ( X ) ) = { 1 , Y = ̸ f ( X ) 0 , Y = f ( X ) L(Y,f(X))=\left\{ \begin{array}{rcl} 1, & Y=\not f(X) \\ 0, & Y=f(X)\\ \end{array} \right. L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
(2)平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2
(3)绝对损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)
(4)对数损失函数
L ( Y , P ( Y ∣ X ) ) = − l o g   P ( Y ∣ X ) L(Y,P(Y|X))=-log\ P(Y|X) L(Y,P(YX))=log P(YX)

风险函数:
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_P[L(Y,f(X))]=\int_{X\times Y}L(y,f(x))P(x,y)dxdy Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy

经验风险:
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum \limits_{i=1}^NL(y_i,f(x_i)) Remp(f)=N1i=1NL(yi,f(xi))

结构风险:
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值