机器学习笔记5——系统设计

最新推荐文章于 2023-03-11 12:15:46 发布

余生最年轻

最新推荐文章于 2023-03-11 12:15:46 发布

阅读量352

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40597317/article/details/80940224

版权

吴恩达机器学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

关键字：偏斜类，查准率，召回率

一、垃圾邮件分类的例子

1.因为垃圾邮件有一些典型的出现比较多的词，比如buy,diccount,hurry等等，所以可以先从训练集中选择出现频率最高的一些词，把他们放到一个向量里去，这个向量叫特征变量。然后判断的时候就是如果单词出现了，对应的地方就记为1，否则记为0.。最好在交叉验证向量集上做误差分析。

二、不对称分类的误差评估和衡量标准

1、偏斜类（通常把它的值定义为1）

这类的样本比其他类的样本少很多（比如癌症判断，实际上只有0.5%的人得了癌症，得了癌症的人比不得癌症的人少很多，所以这0.5%得了癌症的人叫偏斜类）

2、查准率

还是以癌症病人为例，首先是类似概率论与数理统计里面的拒真和受伪判断两个的一张表（实际上是0还是1，判断出来的是0还是1，一共四种组合，每个组合都有个称呼）

查准率=查准率衡量预测的准确度，越高越好

提高差准率的方法：将阈值提高0.2，就是只有我们预测>0.7的时候才告诉病人患病了。这样可以提高准确率。

就是只有我们预测<0.7的时候才告诉病人患病了。这样可以提高准确率。但是这个做法会导致召回率变低。

3、召回率

召回率

对于真的得了癌症的病人，我们有多大的概率能预测出他们得了癌症，越高越好

召回率=

提高召回率的方法：将阈值降低，比如降低0.2，就是只有我们预测>0.3的时候才告诉病人患病了。这样可以提高准确率。

就是只有我们预测

<0.3的时候才告诉病人患病了。这样可以提高准确率。但是这个做法会导致查准率变低。

4、查准率与召回率是相互矛盾的，一个低另一个高，不严谨的说他们是成反比的

如何在二者之间获得一个比较均衡的值？选取高查准率还是高召回率呢？

可以通过计算F1值，F值越高越好，那么这个时候查准率和召回率都是比较大的，其中P,R分别表示查准率和召回率。

这是观看吴恩达网易云机器学习系列做的笔记

图片来源于视频课件

余生最年轻

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

余生最年轻 CSDN认证博客专家 CSDN认证企业博客

码龄7年

24: 原创

17万+: 周排名

130万+: 总排名

68万+: 访问

: 等级

2654: 积分

230: 粉丝

372: 获赞

77: 评论

1967: 收藏

私信

关注

热门文章

分类专栏

最新评论

python.sklearn.gaussian_process高斯过程回归的调用
m0_62331217: 画出来的图没有博主那么完美需要怎么优化啊如果使用经纬度作为二维变量输入影响房价的话应该使用什么核函数好一点
B样条曲线（B-spline Curves）
卡琦110: 全文中阶和次应该都搞混了
B样条曲线（B-spline Curves）
卡琦110: 在一般表达中，应该表示为K阶（K-1次）
高斯过程回归GPR
哇哦是这样啊: 谢谢分享
python.sklearn.gaussian_process高斯过程回归的调用
sunchenhao_hh: 您好，想请教一下如果训练集是有好几个特征的，有的特征是10的-1量级的，有的是10的-3量级的，这种情况如果使用了RBF作为核函数，是不是length scale就要给定各向异性的了呢，给的值就是每个特征的数量级或者平均值？还是说随便给一个它自己会优化呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。