机器学习——评估参数

最新推荐文章于 2022-12-27 15:00:37 发布

蜡笔小楚

最新推荐文章于 2022-12-27 15:00:37 发布

阅读量760

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43492938/article/details/107756560

版权

确定执行的优先级

利用垃圾邮件自动检测分类。如何去选取它的特征，或者说怎么将邮件文字形式的内容转化为可用的特征数据？

可以将一些词语出现标记为1一些标记为0从而构造特征向量。

如何提升判定的准确率？

收集大量数据（honeypot）->这是一般是徒劳的
利用上来件人信息构造复杂的特征
增加一些关键词比如说折扣、打折、会员、现金等（5000 - 10000）
形近词语是否研究，比如会口贝（会员）等

误差分析

遇到机器学习项目的操作流程：

快速的简单的粗暴的实现机器学习算法，然后用交叉验证集去测试它；
画出学习曲线，看是否是高方差，高偏差问题，决定是否需要更多数据更多特征，或者用其他相应的方式去解决；
误差分析，看一下那些被错分为垃圾邮件和哪些垃圾邮件没有被分出来，然后调整特征，提升准确率；

词干提取：有些单词需要认为为同一个单词，就可以通过词干提取实现；
数值评判：对每一个次的学习给定义个数值，比如准确率、召回率等，方便评价算法性能；

不对称性分类的误差评估

偏斜类：负例的样本特别少，比如100个样本只有2个负例，假设机器学习算法判断的正确率为97%，100个中只有3个被判断错误，看起来正确率还是不错的，但是我们不采用机器学习算法，将所有的样本都认为是正例，这样的错误率只有2 / 100 = 2%，优于学习算法。因此这种负例样本较少情称为偏斜类。这样会导致到底是不是实际意义上的提升了算法性能，还是仅仅改成了全部判定为正例。

为了解决上述问题，更好的反映算法的性能，定义了两个数值指标：
**查准率：**判断为正例样本中，真正的正例所占所有判断为正例样本的比例：TP / （TP + FP）
**召回率：**判断为的正例，占真实实际的正例的比例：TP / （TP + FN）

如果全部定义为负例，那么召回率将是0
查准率和召回率

查准率和召回率的权衡

假设还是癌症的情况：

在设置阈值的时候需要有所考虑，一般逻辑回归阈值（相当于置信度）设置为0.5，即h(x)大于0.5则判断为有癌症，否则就没有；
如果我们为了不误判，或者说能够十分确定了才告诉患者以免造成心理伤害，我们将阈值设置为0.9，意思是，只有在90%确定的情况下才告诉患者，你得了癌症，这样的话查准率就比较高了，但是召回率就低，因为有很多的有癌症的被判断为无癌症；
如果为了能够尽量查出所有的患癌症的人，那么就需要有高的召回率，于是将阈值设置为0.3这个较低水平，然后告诉患者你可能得了癌症，通过二次复查就可以排除那些误判为癌症的患者。即使这样会造成心理压力，但这毕竟不是致命的。因此宁愿多做检查，阈值设置较低，也不能去误判漏掉某个真正有癌症的病人。

通常我们不好去比较到底哪一个模型使我们应该选取的，因为P，R值都是在变化得，因此：我们再增添一个参数：F1 Score
2 x P x R / (P + R) —>>> F1 Score

机器学习数据

大量的数据对于算法性能不一定有促进作用，往往在一些特定的情况下大量数据才会发挥其积极作用。
大量数据情况下，不太会出现过拟合现象，也就是说训练误差接近于测试误差，而且两者都比较小，因此这个的测试误差将也会很小。
测试的误差也将较小
特征数量的确定类比于，一个人类的专家看到这些特征，是否能作出预测。
大数据集表明是否有很大的训练集；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。