机器学习Class 11:机器学习系统设计

目录 

11-1 优先级

11-2 误差分析     

11-3 不对称分类的误差评估

11-4 精确度和召回率的权衡

11-5 机器学习数据


11-1 优先级

区分正常与垃圾邮件,可通过监督学习来完成,x=邮件特征,y=1(垃圾邮件)or 0(正常邮件)

x可以选择若干个关键词作为区分的指标,如:deal、discount、buy等

实际上,通常在训练集中,挑选出现频率最高的n个单词(10000<n<50000)

大量的数据不一定对检测垃圾邮件有益,因此要增加特征值 

11-2 误差分析     

在建立机器学习系统时,应该快速实现一个简单的系统,绘制出相应的学习曲线,再考虑算法是符合要求

误差分析:即观察系统中相同的特征,以便更好地改进算法

对于邮件分类例子,要区分垃圾邮件,一是人工观察垃圾邮件的共同特征;二是增加更多的关键词,帮助系统分类

需要在交叉验证集上做误差分析

11-3 不对称分类的误差评估

例:癌症分析,y=1(确诊)or y=0

若使用机器学习算法只有1%的误诊率,但实际上只有0.5%的人确诊

0.5%称为偏斜类

查准/召回率:

实际分类(1)实际分类(0)
预测分类(1)真阳性假阳性
预测分类(0)假阴性真阴性

查准率=真阳性/阳性=真阳性/(真阳性+假阳性)

召回率:真阳性/实际阳性=真阳性/(真阳性+假阴性)

查准率和召回率

越高越好

11-4 精确度和召回率的权衡

选取不同临界值时,对查准率和召回率有较大影响

假设有三个算法,查准率和召回率如下:

 P=查准率,R=召回率

F值=2PR/(P+R)

通过F值可以决策哪个算法更合适,从而选择算法,F值越高越好

11-5 机器学习数据

以下条件成立时,利用大量数据,可以提高算法性能:

1.当使用人类专家对某一问题进行预测,若能够完成精准的预测,则可以使用大量数据

2.此外,能否得到一个庞大训练集,并在训练集中训练一有很多参数的学习算法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值