【CV】吴恩达机器学习课程笔记第11章

Fannnnf

已于 2022-02-19 23:18:00 修改

阅读量338

收藏

点赞数

分类专栏：吴恩达机器学习课程笔记文章标签：机器学习人工智能

于 2022-02-06 14:16:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42475234/article/details/122797902

版权

吴恩达机器学习课程笔记专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本系列文章如果没有特殊说明，正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili

目录

11 机器学习系统设计

11 机器学习系统设计

11-1 确定执行的优先级：以垃圾邮件分类为例

11-2 误差分析

在这里插入图片描述

不要在编写程序时进行过早的优化，在编写完整个系统后再根据学习曲线优化系统；先编写一个简单粗暴的算法，再根据输出的结果改进算法
误差分析：观察被错误分类的数据有何共同的特征（以垃圾邮件分类为例，查看被错误分类的垃圾邮件有何共同的特征）或以数值方式表示误差
推荐在交叉验证集上做误差分析

11-3 不对称性分类的误差评估

偏斜类问题：一个数据集中的一类数据样本比另外一类的样本少的多（比如1占样本的0.5%，而0占样本的99.5%）
在偏斜类问题中（比如患癌症占样本的0.5%，而不患癌症占样本的99.5%），假设一个算法达到了99.5%的预测准确率，这时已经只有0.5%的误差，但是如果始终预测不患癌症也有99.5%的准确率，误差也只有0.5%，这时需要用到不同的误差度量值
其中一种叫做查准率和召回率(precision recall)
在这里插入图片描述

左侧表格上方为实际的，表格左侧为预测的，1代表患癌，0代表不患癌
- 如果预测为1，实际为1，则是真阳性(True positive)
- 如果预测为1，实际为0，则是假阳性(False positive)
- 如果预测为0，实际为1，则是假阴性(False negtive)
- 如果预测为0，实际为0，则是真阴性(True negtive)
  $查准率=\frac{预测为真并且实际为真的数量}{预测为真的数量}=\frac{True\ positive}{True\ positive+False\ positive}$
  $召回率=\frac{预测为真并且实际为真的数量}{实际为真的数量}=\frac{True\ positive}{True\ positive+False\ negtive}$
  两者均是越高越好

11-4 查准率和召回率的平衡

在这里插入图片描述
本来在超过50%概率时预测为1（即患癌），在低于50%时预测为0（即不患癌）
现在如果要在超过70%患癌可能性时才预测为患癌的话，会得到一个高查准率但低召回率的模型
如果要在超过30%患癌可能性时就预测患癌，会得到一个高召回率但低查准率的模型

高查准率：能不揪出来的就不揪出来
高召回率：能揪出来的都揪出来

在这里插入图片描述
通过计算查准率和召回率的平均值不能直接评估一个算法的好坏
通过 $F值（F_1值）=2\frac{PR}{P+R}$ 能更好地评估一个算法的好坏（P为查准率，R为召回率）

11-5 机器学习数据

在有一个非常庞大的训练集的前提下，即使有很多的参数（训练集数量>>参数数量），也能很好地拟合数据集，不会产生过拟合现象

Fannnnf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Fannnnf 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

打赏作者

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值