十一、构建大型机器学习模型时的技巧

最新推荐文章于 2024-09-15 22:08:22 发布

lizhaoxinLZX

最新推荐文章于 2024-09-15 22:08:22 发布

阅读量144

点赞数

分类专栏：吴恩达-机器学习文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lizhaoxin666/article/details/112847224

版权

吴恩达-机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

吴恩达机器学习笔记——十一、构建大型模型时的技巧

1 合理选择特征
2 要建立合适的误差分析指标
3 不对称分类/偏斜类
4 数据量问题

1 合理选择特征

对于文本分类问题，我们选择特征时应该多方面考虑，比如：

单词首字母大小写是否认为是两个特征
单词词缀不同是否认为是两个单词（student students，deal， dealer）
标点符号的特征
拼写错误的单词（w4tch，i0s），这是垃圾邮件用来骗过检索系统的一种技巧。
邮件地址特征

2 要建立合适的误差分析指标

最好使用一个数值来评估不同模型针对同一问题的性能，这样可以便于提供改进算法的依据

3 不对称分类/偏斜类

背景：当对癌症患者或制造厂次品率进行预测分类时，因为癌症患者和次品率一般都很低，如果编写一个什么都不做直接把样本分为反例的算法可能误差比学习到的算法还好。
用查准率和查全率的指标来评价，详见周志华老师的《机器学习》
通过调整分类的阈值，可以调整查准率和查全率之间的侧重关系。
但是引入两率之后，就引入了两个误差评价指标，这与2是冲突的，因此，我们采用F值来评估，F值的表达式如下：
在这里插入图片描述
P是查准率，R是查全率

4 数据量问题

增大选取的特征数量可以减小偏差，前提是特征选取合适。
增大样本数可以减小方差。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。