十一、构建大型机器学习模型时的技巧

吴恩达机器学习笔记——十一、构建大型模型时的技巧

1 合理选择特征

对于文本分类问题,我们选择特征时应该多方面考虑,比如:

  1. 单词首字母大小写是否认为是两个特征
  2. 单词词缀不同是否认为是两个单词(student students,deal, dealer)
  3. 标点符号的特征
  4. 拼写错误的单词(w4tch,i0s),这是垃圾邮件用来骗过检索系统的一种技巧。
  5. 邮件地址特征

2 要建立合适的误差分析指标

最好使用一个数值来评估不同模型针对同一问题的性能,这样可以便于提供改进算法的依据

3 不对称分类/偏斜类

背景:当对癌症患者或制造厂次品率进行预测分类时,因为癌症患者和次品率一般都很低,如果编写一个什么都不做直接把样本分为反例的算法可能误差比学习到的算法还好。
查准率查全率的指标来评价,详见周志华老师的《机器学习》
通过调整分类的阈值,可以调整查准率和查全率之间的侧重关系。
但是引入两率之后,就引入了两个误差评价指标,这与2是冲突的,因此,我们采用F值来评估,F值的表达式如下:
在这里插入图片描述
P是查准率,R是查全率

4 数据量问题

增大选取的特征数量可以减小偏差,前提是特征选取合适。
增大样本数可以减小方差。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值