1. 统计学习方法
(1)监督学习
特点:
- 有标签
- 训练集必须由带标签的样本组成
- 使用时数据集分为:训练集、验证集和测试集
- 能通过代价函数直观判断学习方法的优劣
监督学习的算法模型有:线性回归,逻辑回归,支持向量机、神经网络等。
使用场景:用于分类、标注和回归问题,在自然语言处理、信息检索、文本数据挖掘应用广泛。
(2)非监督学习
特点:
- 没有标签;
- 只有要分析的数据集的本身一组数据,没有训练集,在该组数据集内寻找规律
- 而无监督学习难判断算法的准确性
无监督学习包含:聚类,推荐系统和降维等。
(3)半监督学习
(4)强化学习
2.三要素
(1)模型
(2)策略
(3)算法
3.模型评估和选择
(1)模型评估方法——训练误差和测试误差
(2)模型选择——提高泛化能力——正则化与交叉验证
正则化:
- 是结构风险最小化策略的实现
- 一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大
- 正则化可以采用参数的L2范数(较常用)和L1范数
- 正则化符合奥卡姆剃刀原理
交叉验证:
- 简单交叉验证:将数据集分成两部分:训练集和测试集(一般7比3分配,大数据时根据情况分配)在测试集上评估各个模型,选择测试误差最小的。
- S折交叉验证:将数据集随机切分为S个互不相交的子集,利用S-1训练模型,1个测试模型,对S种选择重复进行,最后选择平均测试误差最小的模型。
- 留一交叉验证:一般只在数据缺乏情况下使用,指当S=N时(N样本容量)。
4.泛化能力
(1)泛化能力——学习模型对未知数据的预测能力
(2)泛化误差——模型对未知数据的预测误差,实际上是学到模型的期望风险。
(3)泛化误差上限
性质:
- 是样本容量的函数,容量越大,上界越小,趋于0
- 是假设空间容量的函数,假设空间容量越大,模型越难学,上界越大
泛化误差上界:
- 对二分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , … … , f d } , 对 于 任 意 f ∈ F , 至 少 以 概 率 1 − δ , 以 下 不 等 式 成 立 : F=\lbrace f_1,f_2,……,f_d\rbrace,对于任意f\in F,至少以概率1-\delta,以下不等式成立: F={f1,f2,……,fd},对于任意f∈F,至少以概率1−δ,以下不等式成立: R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta) R(f)≤R^(f)+ε(d,N,δ)其中, ε ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \varepsilon(d,N,\delta)=\sqrt{\frac1{2N}(logd+log\frac1\delta)} ε(d,N,δ)=2N1(logd+logδ1)
5.生成模型和判别模型
(1)生成模型——给定输入X产生输出Y
- 由数据学习联合概率分布,然后求出条件概率分布作为预测的模型
- 朴树贝叶斯法和隐马尔可夫模型
- 可以还原联合概率分布
(2)判别模型
- 由数据直接学习决策函数或者条件概率分布作为预测模型
- k近邻法,感知机,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法和条件随机场等
- 不能还原联合概率分布
- 往往准确率更高
6.分类问题
(1)评价分类器的指标一般是准确率
准 确 率 = 正 确 分 类 样 本 数 总 样 本 数 准确率=\frac{正确分类样本数}{总样本数} 准确率=总样本数正确分类样本数
(2)对于二分类问题,特别是偏科问题常用指标是精确率和召回率
精 确 率 = 真 阳 样 本 真 阳 样 本 + 假 阳 样 本 , 即 P = T P T P + F P 精确率=\frac{真阳样本}{真阳样本+假阳样本},即P=\frac{TP}{TP+FP} 精确率=真阳样本+假阳样本真阳样本,即P=TP+FPTP 召 回 率 = 真 阳 样 本 真 阳 样 本 + 假 阴 样 本 , 即 R = T P T P + F N 召回率=\frac{真阳样本}{真阳样本+假阴样本},即R=\frac{TP}{TP+FN} 召回率=真阳样本+假阴样本真阳样本,即R=TP+FNTP F 1 = 2 P R P + R F_1=\frac{2PR}{P+R} F1=P+R2PR