机器学习——评估参数

确定执行的优先级

利用垃圾邮件自动检测分类。如何去选取它的特征,或者说怎么将邮件文字形式的内容转化为可用的特征数据?

可以将一些词语出现标记为1一些标记为0从而构造特征向量。

如何提升判定的准确率?

  1. 收集大量数据(honeypot)->这是一般是徒劳的
  2. 利用上来件人信息构造复杂的特征
  3. 增加一些关键词比如说折扣、打折、会员、现金等(5000 - 10000)
  4. 形近词语是否研究,比如会口贝(会员)等

误差分析

遇到机器学习项目的操作流程:

  1. 快速的简单的粗暴的实现机器学习算法,然后用交叉验证集去测试它
  2. 画出学习曲线,看是否是高方差,高偏差问题,决定是否需要更多数据更多特征,或者用其他相应的方式去解决;
  3. 误差分析,看一下那些被错分为垃圾邮件和哪些垃圾邮件没有被分出来,然后调整特征,提升准确率;

词干提取:有些单词需要认为为同一个单词,就可以通过词干提取实现;
数值评判:对每一个次的学习给定义个数值,比如准确率、召回率等,方便评价算法性能;

不对称性分类的误差评估

偏斜类:负例的样本特别少,比如100个样本只有2个负例,假设机器学习算法判断的正确率为97%,100个中只有3个被判断错误,看起来正确率还是不错的,但是我们不采用机器学习算法,将所有的样本都认为是正例,这样的错误率只有2 / 100 = 2%,优于学习算法。因此这种负例样本较少情称为偏斜类。这样会导致到底是不是实际意义上的提升了算法性能,还是仅仅改成了全部判定为正例。

为了解决上述问题,更好的反映算法的性能,定义了两个数值指标:
**查准率:**判断为正例样本中,真正的正例所占所有判断为正例样本的比例:TP / (TP + FP)
**召回率:**判断为的正例,占真实实际的正例的比例:TP / (TP + FN)

如果全部定义为负例,那么召回率将是0
查准率和召回率

查准率和召回率的权衡

假设还是癌症的情况:

  1. 在设置阈值的时候需要有所考虑,一般逻辑回归阈值(相当于置信度)设置为0.5,即h(x)大于0.5则判断为有癌症,否则就没有;
  2. 如果我们为了不误判,或者说能够十分确定了才告诉患者以免造成心理伤害,我们将阈值设置为0.9,意思是,只有在90%确定的情况下才告诉患者,你得了癌症,这样的话查准率就比较高了,但是召回率就低,因为有很多的有癌症的被判断为无癌症;
  3. 如果为了能够尽量查出所有的患癌症的人,那么就需要有高的召回率,于是将阈值设置为0.3这个较低水平,然后告诉患者你可能得了癌症,通过二次复查就可以排除那些误判为癌症的患者。即使这样会造成心理压力,但这毕竟不是致命的。因此宁愿多做检查,阈值设置较低,也不能去误判漏掉某个真正有癌症的病人。

通常我们不好去比较到底哪一个模型使我们应该选取的,因为P,R值都是在变化得,因此:我们再增添一个参数:F1 Score
2 x P x R / (P + R) —>>> F1 Score
F1 Score

机器学习数据

大量的数据对于算法性能不一定有促进作用,往往在一些特定的情况下大量数据才会发挥其积极作用。
大量数据情况下,不太会出现过拟合现象,也就是说训练误差接近于测试误差,而且两者都比较小,因此这个的测试误差将也会很小。
测试的误差也将较小
特征数量的确定类比于,一个人类的专家看到这些特征,是否能作出预测。
大数据集表明是否有很大的训练集;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值