【吴恩达机器学习-笔记整理】设计复杂的机器学习系统（执行的优先级，误差分析，不对称性误差评估，精确度和召回率）

怪&

于 2022-08-23 15:25:06 发布

阅读量530

点赞数

分类专栏：机器学习｜吴恩达的机器学习笔记文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21471309/article/details/126485582

版权

机器学习｜吴恩达的机器学习笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

目录：

🌵🌵🌵前言
❤️❤️❤️忙碌的敲代码也不要忘了浪漫鸭！

🌵🌵🌵前言

✨你好啊，我是“ 怪& ”，是一名在校大学生哦。
🌍主页链接：怪&的个人博客主页
☀️博文主更方向为：课程学习知识、作业题解、期末备考。随着专业的深入会越来越广哦…一起期待。
❤️一个“不想让我曾没有做好的也成为你的遗憾”的博主。
💪很高兴与你相遇，一起加油！

一、执行的优先级

以垃圾邮件分类为例
四种制作优先级的方法

请添加图片描述

二、误差分析的思想

1、先实现一个简单粗暴的方法，然后手动去寻找优化点

找占比最大的错误信息，去找其优化方式
请添加图片描述

2、通过数值，评估算法的效果

单一规则的数值评价指标，强烈推荐在交叉验证集上来做误差分析
是否用词干提取
请添加图片描述

三、不对称性分类的误差评估

例如癌症预测，正负样本比例差别巨大
请添加图片描述

若有偏斜类，用分类精确度并不能很好的衡量算法
评估此类模型方法：
查准率（越高越好）
召回率（越高越好）

将y=1定义为对立两者中较少的那一类

请添加图片描述

四、精确度和召回率的权衡

请添加图片描述

F值会考虑查准率和召回率的平均值，但是其会给查准率和召回率中较低的值更高的权重
以此来作为评判比较合理
F值计算：2（PR）/（P+R）

请添加图片描述

五、机器学习数据

朴素贝叶斯分类器
特征捕捉
大量的数据时是有帮助的

例如预测房价时，只给房子的大小并不能预测房子的价格

当数据量非常大时，不太可能出现过度拟合的状态，我们的训练误差可能接近测试误差

确保较低偏差：通过确保有一个具有很多参数的学习算法来保证的，以便我们能够得到一个较低偏差的算法。
确保较低方差：用非常大的训练集来保证我们在没有方差问题

将两者结合，可以得到低偏差和低方差的的学习算法，关键在于：特征值有足够的信息量，有一类很好的函数（此为确保低误差的关键）

若有大量的数据，且训练了一种带有很多参数的学习算法，这将是一种很好的方式来提供一个高性能的学习算法。

❤️❤️❤️忙碌的敲代码也不要忘了浪漫鸭！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

怪& 感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。