第一章--统计学习方法概论---(1)

1. 统计学习方法

(1)监督学习

特点:

  • 有标签
  • 训练集必须由带标签的样本组成
  • 使用时数据集分为:训练集、验证集和测试集
  • 能通过代价函数直观判断学习方法的优劣

监督学习的算法模型有:线性回归,逻辑回归,支持向量机、神经网络等。
使用场景:用于分类、标注和回归问题,在自然语言处理、信息检索、文本数据挖掘应用广泛。

(2)非监督学习

特点:

  • 没有标签;
  • 只有要分析的数据集的本身一组数据,没有训练集,在该组数据集内寻找规律
  • 而无监督学习难判断算法的准确性

无监督学习包含:聚类,推荐系统和降维等。

(3)半监督学习

(4)强化学习

2.三要素

(1)模型

(2)策略

(3)算法

3.模型评估和选择

(1)模型评估方法——训练误差和测试误差

(2)模型选择——提高泛化能力——正则化与交叉验证

正则化:

  • 是结构风险最小化策略的实现
  • 一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
  • 正则化可以采用参数的L2范数(较常用)和L1范数
  • 正则化符合奥卡姆剃刀原理

交叉验证:

  • 简单交叉验证:将数据集分成两部分:训练集和测试集(一般7比3分配,大数据时根据情况分配)在测试集上评估各个模型,选择测试误差最小的。
  • S折交叉验证:将数据集随机切分为S个互不相交的子集,利用S-1训练模型,1个测试模型,对S种选择重复进行,最后选择平均测试误差最小的模型。
  • 留一交叉验证:一般只在数据缺乏情况下使用,指当S=N时(N样本容量)。

4.泛化能力

(1)泛化能力——学习模型对未知数据的预测能力

(2)泛化误差——模型对未知数据的预测误差,实际上是学到模型的期望风险。

(3)泛化误差上限

性质:

  • 是样本容量的函数,容量越大,上界越小,趋于0
  • 是假设空间容量的函数,假设空间容量越大,模型越难学,上界越大

泛化误差上界:

  • 对二分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , … … , f d } , 对 于 任 意 f ∈ F , 至 少 以 概 率 1 − δ , 以 下 不 等 式 成 立 : F=\lbrace f_1,f_2,……,f_d\rbrace,对于任意f\in F,至少以概率1-\delta,以下不等式成立: F={f1,f2,,fd}fF1δ R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta) R(f)R^(f)+ε(d,N,δ)其中, ε ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \varepsilon(d,N,\delta)=\sqrt{\frac1{2N}(logd+log\frac1\delta)} ε(d,N,δ)=2N1(logd+logδ1)

5.生成模型和判别模型

(1)生成模型——给定输入X产生输出Y

  • 由数据学习联合概率分布,然后求出条件概率分布作为预测的模型
  • 朴树贝叶斯法和隐马尔可夫模型
  • 可以还原联合概率分布

(2)判别模型

  • 由数据直接学习决策函数或者条件概率分布作为预测模型
  • k近邻法,感知机,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法和条件随机场等
  • 不能还原联合概率分布
  • 往往准确率更高

6.分类问题

(1)评价分类器的指标一般是准确率

准 确 率 = 正 确 分 类 样 本 数 总 样 本 数 准确率=\frac{正确分类样本数}{总样本数} =

(2)对于二分类问题,特别是偏科问题常用指标是精确率和召回率

精 确 率 = 真 阳 样 本 真 阳 样 本 + 假 阳 样 本 , 即 P = T P T P + F P 精确率=\frac{真阳样本}{真阳样本+假阳样本},即P=\frac{TP}{TP+FP} =+P=TP+FPTP 召 回 率 = 真 阳 样 本 真 阳 样 本 + 假 阴 样 本 , 即 R = T P T P + F N 召回率=\frac{真阳样本}{真阳样本+假阴样本},即R=\frac{TP}{TP+FN} =+R=TP+FNTP F 1 = 2 P R P + R F_1=\frac{2PR}{P+R} F1=P+R2PR

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值