机器学习术语和评价方法

基本术语

基础

1.样本 /示例 /特征向量:数据集中的每个记录
2.样本空间 /属性空间 /输入空间 /特征空间:样本属性张成的空间,每个样本对应空间中的一个点,故一个示例也称为一个特征向量
3.标记空间 /输出空间:所有标记的集合
4.样例集合:特征向量和标签变量对集合,记为:D={(x1,y1) , (x2,y2), …(xm,ym)}

假设空间

科学推理的两大基本手段:归纳induction与演绎deduction

  • 归纳:从特殊到一般的泛化过程,即从具体的事实归结出一般规律
  • 演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体状况
  • 假设空间:能将训练集中的样本判断为正确的假设的集合
  • 版本空间:可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”
归纳偏好

“版本空间”中可能有多个假设对应训练集中的某个样本,但是多个假设可能有不同的输出,那么应该采用哪一个模型(或假设)呢?

  • 归纳偏好:算法在学习过程中对某种类型假设的偏好。如果没有归纳偏好,算法产生的模型每次在进行预测是随机抽选训练集上的等效假设,学得模型事儿告诉我们它是好的、时而告诉我们它是不好的,这样的学习结果显然没有意义。
  • 奥卡姆剃刀Occam’s razor:若有多个假设与观察一致,则选最简单的那个。
  • “没有免费的午餐”定理NFL:无论学习算法a多聪明,学习算法b多笨,它们的期望性能都会相同。
  • NFL定理前提:所有问题出现的机会相同,或所有问题同等重要。
  • 大多数时候算法的归纳偏好是否与问题本身匹配,直接决定了算法能否取得好的性能。

评估方法

1.留出法
“留出法”(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。

  • 训练/测试集的划分要尽可能保持数据分布的一致性,避免因为数据的划分而引入额外的偏差。从采样角度看,可使用分层采样法。(比如70%的训练,30%的测试比例;共500个正例,500个反例;则最后采样训练集:350个正例,350个反例;测试集:150个正例,150个反例)
  • 不同的划分会导致不同的训练/测试集,故单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分,重复进行试验评估后取平均值作为留出法的评估结果。

2.交叉验证法
先将数据集划分为k个大小相似,数据分布尽可能一致(从D中通过分层采样得到)的互斥子集,然后每次用k-1个子集作为训练集,余下的那个作为测试集,这样即可获得k组训练/测试集,可进行k次训练和测试,最终返回k次结果的均值。k是可变化的,常取值10,5,20等,又称“k折交叉验证
k折交叉验证通常要随机使用不同的划分重复P次——P次K折交叉验证

3.留一法

  • 留一法是交叉验证法的特例。
  • M个样本划分为M个子集,每个子集包含一个样本。
  • 留一法使用的训练集与初始数据集相比只少了一个样本,因此被实际评估的模型与期望评估的模型很相似。
  • 缺点:数据集比较大时,计算开销是难以忍受的

4.自助法
直接以自助采样法为基础,包含m个样本的数据集D,进行采样得到同样包含m个样本的数据集D。每次随机从D中挑选一个样本,拷贝入D中,然后再放回D中,这样下次采样时该样本仍可能被采样到,这个过程重复执行m次,即可得到数据集D
可将D用作训练集,D\D用作测试集。
自助法在数据集较小、难以有效划分训练/测试集时很有用。
但自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。故在初始数据量足够时,留出法和交叉验证法更常用一些。

性能度量

分类问题中:
在这里插入图片描述
P-R曲线和ROC曲线
根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在最后的则是学习器认为“最不可能”是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查全率和查准率,作图可得P-R曲线。
在这里插入图片描述
P-R曲线中,若一个学习器的曲线被另一个完全包住,则后者好(图中A比C好)。当两条曲线相交时,可以比较平衡点(Break-Even Point,简称BEP,查准率=查全率),图中A优于B。
在这里插入图片描述
ROC曲线中,横坐标是假正例率,纵坐标是真正例率。
假正例率:FPR=FP/(FP+TN)
真正例率:TPR=TP/(TP+FN)
作图方法和P-R曲线作图方法类似。
进行学习器比较时,也和P-R曲线类似,若一条曲线完全被另外一条包裹,则后者更优,也即曲线越靠近左上角越好。若两条曲线相交,则可比较ROC曲线下的面积AUC(Area Under ROC Curve)
注意:在正负样本分布得极不均匀(highly skewed datasets)的情况下,PR曲线比ROC曲线能更有效地反应分类器的好坏。而且PR曲线可以根据不同问题限定Recall或者Precision,所以一般情况下优先选用PR曲线。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值