第一章--统计学习方法概论---（1）

最新推荐文章于 2021-11-26 14:27:04 发布

翔燕

最新推荐文章于 2021-11-26 14:27:04 发布

阅读量205

点赞数

分类专栏：李航统计学习方法文章标签：方法分类概率三要素模型评估

本文链接：https://blog.csdn.net/qq_36217665/article/details/100401579

版权

李航统计学习方法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1. 统计学习方法

（1）监督学习

特点：

有标签
训练集必须由带标签的样本组成
使用时数据集分为：训练集、验证集和测试集
能通过代价函数直观判断学习方法的优劣

监督学习的算法模型有：线性回归，逻辑回归，支持向量机、神经网络等。
使用场景：用于分类、标注和回归问题，在自然语言处理、信息检索、文本数据挖掘应用广泛。

（2）非监督学习

特点：

没有标签；
只有要分析的数据集的本身一组数据，没有训练集，在该组数据集内寻找规律
而无监督学习难判断算法的准确性

无监督学习包含:聚类，推荐系统和降维等。

（3）半监督学习

（4）强化学习

2.三要素

（1）模型

（2）策略

（3）算法

3.模型评估和选择

（1）模型评估方法——训练误差和测试误差

（2）模型选择——提高泛化能力——正则化与交叉验证

正则化：

是结构风险最小化策略的实现
一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大
正则化可以采用参数的L2范数（较常用）和L1范数
正则化符合奥卡姆剃刀原理

交叉验证：

简单交叉验证：将数据集分成两部分：训练集和测试集（一般7比3分配，大数据时根据情况分配）在测试集上评估各个模型，选择测试误差最小的。
S折交叉验证：将数据集随机切分为S个互不相交的子集，利用S-1训练模型，1个测试模型，对S种选择重复进行，最后选择平均测试误差最小的模型。
留一交叉验证：一般只在数据缺乏情况下使用，指当S=N时（N样本容量）。

4.泛化能力

（1）泛化能力——学习模型对未知数据的预测能力

（2）泛化误差——模型对未知数据的预测误差，实际上是学到模型的期望风险。

（3）泛化误差上限

性质：

是样本容量的函数，容量越大，上界越小，趋于0
是假设空间容量的函数，假设空间容量越大，模型越难学，上界越大

泛化误差上界：

对二分类问题，当假设空间是有限个函数的集合 $F=\lbrace f_1,f_2,……,f_d\rbrace，对于任意f\in F，至少以概率1-\delta，以下不等式成立：$ $R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta)$ 其中， $\varepsilon(d,N,\delta)=\sqrt{\frac1{2N}(logd+log\frac1\delta)}$

5.生成模型和判别模型

（1）生成模型——给定输入X产生输出Y

由数据学习联合概率分布，然后求出条件概率分布作为预测的模型
朴树贝叶斯法和隐马尔可夫模型
可以还原联合概率分布

（2）判别模型

由数据直接学习决策函数或者条件概率分布作为预测模型
k近邻法，感知机，决策树，逻辑斯蒂回归模型，最大熵模型，支持向量机，提升方法和条件随机场等
不能还原联合概率分布
往往准确率更高

6.分类问题

（1）评价分类器的指标一般是准确率

$准确率=\frac{正确分类样本数}{总样本数}$

（2）对于二分类问题，特别是偏科问题常用指标是精确率和召回率

$精确率=\frac{真阳样本}{真阳样本+假阳样本}，即P=\frac{TP}{TP+FP}$ $召回率=\frac{真阳样本}{真阳样本+假阴样本}，即R=\frac{TP}{TP+FN}$ $F_1=\frac{2PR}{P+R}$

翔燕

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一章--统计学习方法概论---（1）

1. 统计学习方法（1）监督学习特点：有标签训练集必须由带标签的样本组成使用时数据集分为：训练集、验证集和测试集能通过代价函数直观判断学习方法的优劣监督学习的算法模型有：线性回归，逻辑回归，支持向量机、神经网络等。使用场景：用于分类、标注和回归问题，在自然语言处理、信息检索、文本数据挖掘应用广泛。（2）非监督学习特点：没有标签；只有要分析的数据集的本身一组数据，没有训...
复制链接

扫一扫

专栏目录