9-Machine Learing System Design

最新推荐文章于 2023-01-09 17:33:47 发布

DawnRanger

最新推荐文章于 2023-01-09 17:33:47 发布

阅读量578

点赞数

分类专栏： machine-learning

本文链接：https://blog.csdn.net/DawnRanger/article/details/48168739

版权

22 篇文章 1 订阅

订阅专栏

以 Spam classification 为例来说明问题。
识别垃圾邮件的基本方法：从大量的邮件中选取出最频繁出现的 n 个词语（包括垃圾邮件关键词和非垃圾邮件关键词，n可取10,000 to 50,000）作为关键词。然后对新邮件进行处理，生成 n x 1维向量 X 作为分类器的输入。

降低误差的方法（Brain Storm）：

收集大量数据（例如：使用honeypot蜜罐诱导垃圾邮件发送者的邮件）
根据邮件的routing information(from email header)信息开发算法（有些垃圾邮件的发送地址有一些明显的特征）
根据邮件文本特征开发算法：
- ”discount” 和 “discounts”是否应该视为同一个词汇？
- 那么 “deal” 和 “Dealer” 呢？
- 标点符号的特征？（如大量的使用感叹号！）
根据邮件中的拼写错误开发特定算法

推荐的途径：

例如：Cancer classification问题

训练logistic regression模型（y=1患癌症，y=0没有癌症）来预测是否患有癌症。

Precision/Recall准确率与召回率：
（注意通常令哪种出现可能性较小的类别的y=1，比如令患癌的y=1）

preision
formula

其中：

True/false代表预测正确/错误
positive/negative代表预测患癌症/不患癌症

在Cancer classification问题，你可能会想到要改变cancer与not cancer之间的threshhold：

这其中的区别在于：

如果你觉得只能在非常确定时才能预测 y =1（患癌症），那么：
- threshhold应该设置的比较高，例如 0.7 或 0.9
- 此时：准确率提高了，但是召回率却比较低
如果过你不想让本来患有癌症的人被错误的估计成没有癌症，那么：
- threshhold应该设置的相对较小，如 0.3 或 0.5
- 此时：准确率较低，但是召回率较高

在多个方案的准确率、召回率之间如何做选择：

F1 Score(F score)：

要点：

关注

专栏目录