目录:
🌵🌵🌵前言
✨你好啊,我是“ 怪& ”,是一名在校大学生哦。
🌍主页链接:怪&的个人博客主页
☀️博文主更方向为:课程学习知识、作业题解、期末备考。随着专业的深入会越来越广哦…一起期待。
❤️一个“不想让我曾没有做好的也成为你的遗憾”的博主。
💪很高兴与你相遇,一起加油!
一、执行的优先级
以垃圾邮件分类为例
四种制作优先级的方法
二、误差分析的思想
1、先实现一个简单粗暴的方法,然后手动去寻找优化点
找占比最大的错误信息,去找其优化方式
2、通过数值,评估算法的效果
单一规则的数值评价指标,强烈推荐在交叉验证集上来做误差分析
是否用词干提取
三、不对称性分类的误差评估
例如癌症预测,正负样本比例差别巨大
若有偏斜类,用分类精确度并不能很好的衡量算法
评估此类模型方法:
查准率(越高越好)
召回率(越高越好)
将y=1定义为对立两者中较少的那一类
四、精确度和召回率的权衡
F值会考虑查准率和召回率的平均值,但是其会给查准率和召回率中较低的值更高的权重
以此来作为评判比较合理
F值计算:2(PR)/(P+R)
五、机器学习数据
朴素贝叶斯分类器
特征捕捉
大量的数据时是有帮助的
例如预测房价时,只给房子的大小并不能预测房子的价格
当数据量非常大时,不太可能出现过度拟合的状态,我们的训练误差可能接近测试误差
-
确保较低偏差:通过确保有一个具有很多参数的学习算法来保证的,以便我们能够得到一个较低偏差的算法。
-
确保较低方差:用非常大的训练集来保证我们在没有方差问题
将两者结合,可以得到低偏差和低方差的的学习算法,关键在于:特征值有足够的信息量,有一类很好的函数(此为确保低误差的关键)
若有大量的数据,且训练了一种带有很多参数的学习算法,这将是一种很好的方式来提供一个高性能的学习算法。