《数据挖掘》读书笔记5章

第五章 可信度:评估及其学习结果

5.1 训练和测试

         测试集数据不允许用于分类器的创建。

5.2 预测性能

       对于测试集获得的成功率,并不能绝对真实反映分类器的效果,还有个置信区间,运用统计学知识,可以推断出一个置信边界。

5.3 交叉验证

       将所有数据分为若干份,每次预留一份作为测试集,其它作为训练集,经验所得,一般分为10份,也叫10折交叉验证。为得到可靠结果,建议使用10次10折交叉验证。

5.4 其它估计法

       除了交叉验证,还有普遍使用的留一交叉验证和自引导法。留一交叉验证就是n折交叉验证,其中n是数据集所含实例的个数。自引导方法的思想是采取放回抽样数据集来形成训练集。这些估计法比较适用于小数据集。

5.5 数据挖掘方案比较

         一堆数学公式。。。

5.6 预测概率

评估一个概率预测方法的好坏,可以用二次损失函数或者信息损失函数。

5.7 计算成本

         除了要考虑误差率,还需要考虑错误情况下的不同成本。错误的肯定与错误的否定所需的成本往往不相同。可以构建成本敏感的分类器。

         权衡错误肯定和错误否定的不同评估度量方法:上升图(回应率—样本数量)、ROC曲线(正确的肯定—错误的肯定)和反馈率—精确率曲线。反馈率=检索到相关文件数量/相关文件总数量,精确率=检索到相关文件数量/检索到文件总数量。

5.8 评估数值预测

         上述的评估方法都是应用于分类问题,对于数值预测,常用性能衡量标准有:均方差、均方根误差、平均绝对误差、相对平方误差、相对平方根误差、相对绝对误差、相关系数。

5.9 最短描述长度原理

         最短描述长度或称MDL原理是指对于一对数据来说,最好的理论是最小化使理论本身大小加上用于说明相关例外所需的信息量。可以衡量机器学习方法,可以用于无明显评价标准的聚类问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿清陪你聊聊数据分析

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值