机器学习Class 11：机器学习系统设计

最新推荐文章于 2024-05-18 22:42:07 发布

By4te

最新推荐文章于 2024-05-18 22:42:07 发布

阅读量114

点赞数

分类专栏：机器学习文章标签：机器学习 1024程序员节

本文链接：https://blog.csdn.net/m0_49939117/article/details/119909920

版权

机器学习专栏收录该内容

36 篇文章 5 订阅

订阅专栏

11-1 优先级

区分正常与垃圾邮件，可通过监督学习来完成，x=邮件特征，y=1（垃圾邮件）or 0（正常邮件）

x可以选择若干个关键词作为区分的指标，如：deal、discount、buy等

实际上，通常在训练集中，挑选出现频率最高的n个单词（10000<n<50000）

大量的数据不一定对检测垃圾邮件有益，因此要增加特征值

11-2 误差分析

在建立机器学习系统时，应该快速实现一个简单的系统，绘制出相应的学习曲线，再考虑算法是符合要求

误差分析：即观察系统中相同的特征，以便更好地改进算法

对于邮件分类例子，要区分垃圾邮件，一是人工观察垃圾邮件的共同特征；二是增加更多的关键词，帮助系统分类

需要在交叉验证集上做误差分析

11-3 不对称分类的误差评估

例：癌症分析，y=1（确诊）or y=0

若使用机器学习算法只有1%的误诊率，但实际上只有0.5%的人确诊

0.5%称为偏斜类

查准/召回率：

	实际分类（1）	实际分类（0）
预测分类（1）	真阳性	假阳性
预测分类（0）	假阴性	真阴性

查准率=真阳性/阳性=真阳性/（真阳性+假阳性）

召回率：真阳性/实际阳性=真阳性/（真阳性+假阴性）

查准率和召回率

越高越好

11-4 精确度和召回率的权衡

选取不同临界值时，对查准率和召回率有较大影响

假设有三个算法，查准率和召回率如下：

P=查准率，R=召回率

F值=2PR/(P+R)

通过F值可以决策哪个算法更合适，从而选择算法，F值越高越好

11-5 机器学习数据

以下条件成立时，利用大量数据，可以提高算法性能：

1.当使用人类专家对某一问题进行预测，若能够完成精准的预测，则可以使用大量数据

2.此外，能否得到一个庞大训练集，并在训练集中训练一有很多参数的学习算法

By4te

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习Class 11：机器学习系统设计

目录11-1 优先级11-2 误差分析 11-3 不对称分类的误差评估11-4 精确度和召回率的权衡11-5 机器学习数据11-1 优先级区分正常与垃圾邮件，可通过监督学习来完成，x=邮件特征，y=1（垃圾邮件）or 0（正常邮件）x可以选择若干个关键词作为区分的指标，如：deal、discount、buy等实际上，通常在训练集中，挑选出现频率最高的n个单词（10000<n<50000）大量的数据不一定对检测垃圾邮件有益，因此要增加特征值...
复制链接

扫一扫