统计学习方法概论

1 统计学习方法概论

:对《统计学习方法》第一章知识点的概括

1.1 统计学习

对象:数据;
基本假设:同类数据具有一定的统计规律性;
目的:预测和分析;
方法:监督学习、非监督学习、半监督学习和强化学习;

1.2 监督学习

任务:对于给定的输入对其相应的输出做出一个好的预测;

基本概念

  • 输入空间、特征空间与输出空间
  • 联合概率分布: P ( X , Y ) P(X, Y) P(X,Y)——X和Y具有联合概率分布是监督学习关于数据的基本假设;
  • 假设空间:输入空间到输出空间的映射的集合;
  • 学习模型:概率模型( P ( Y ∣ X ) P(Y|X) P(YX))、非概率模型(决策函数 Y = f ( X ) Y=f(X) Y=f(X)

1.3 统计学习三要素

方法 = 模型+策略+算法

损失函数——模型一次预测的好坏

  1. 0-1 损失函数(错误L为1,否则为0)
  2. 平方损失函数(真实与预测之差的平方)
  3. 绝对损失函数(之差绝对值)
  4. 对数损失函数( − l o g P ( X ∣ Y ) -log P(X|Y) logP(XY)

风险函数——平均意义下模型的好坏

风险函数——损失函数的期望

经验风险最小化
m i n 1 N ∑ i = 1 N L ( y i , f ( x i ) ) min \frac{1}{N} \sum^N_{i=1}L(y_i, f(x_i)) minN1i=1NL(yi,f(xi))

结构风险最小化
防止过拟合提出
R s r m ( f ) = 1 n ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f) = \frac{1}{n} \sum^N_{i=1}L(y_i, f(x_i)) + \lambda J(f) Rsrm(f)=n1i=1NL(yi,f(xi))+λJ(f)

1.4 模型的评估与选择

  • 测试/训练误差
  • 过拟合和模型选择

1.5 正则化和交叉验证

正则化:结构风险最小化策略的实现
λ J ( f ) \lambda J(f) λJ(f):正则化项

  • L1范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ ∣ ∣ w ∣ ∣ 1 L(w) = \frac{1}{N} \sum_{i=1}^N(f(x_i;w)-y_i)^2 + \lambda ||w||_1 L(w)=N1i=1N(f(xi;w)yi)2+λw1
  • L2范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ 2 ∣ ∣ w ∣ ∣ 2 L(w) = \frac{1}{N} \sum_{i=1}^N(f(x_i;w)-y_i)^2 + \frac { \lambda}{2}||w||^2 L(w)=N1i=1N(f(xi;w)yi)2+2λw2

交叉验证
随机分割数据:训练集、验证集、测试集;

1.6 泛化能力

泛化能力:该方法学习到的模型对未知数据的预测能力;

1.7 生成模型与判别模型

生成模型
由数据学习联合概论分布求出条件概论分布作为预测的模型 P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X) = \frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y)
典型的有:朴素贝叶斯、HMM等
判别模型
直接学习决策函数或条件概率分布作为预测模型
典型的有:k近邻、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

1.8 分类问题

二分类的评价指标:精确度、召回率

  1. TP——正类预测为正类数
  2. FN——正类预测为负类数
  3. FP——负类预测为正类数
  4. TN——负类预测为负类数

精确度: P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP
召回率: R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP
F1值: F 1 = 2 T P 2 T P + F P + F N F1 = \frac{2TP}{2TP+FP+FN} F1=2TP+FP+FN2TP P和R的调和均值

1.9 标注问题

输入:观测序列
输出:标记序列或状态序列

1.10 回归问题

预测输入变量和输出变量的关系

参考

  1. 《统计学习方法》李航
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值