Coursea-吴恩达-machine learning学习笔记（十一）【week 6之Machine Learning System Design】

最新推荐文章于 2020-01-02 16:15:20 发布

痞靥

最新推荐文章于 2020-01-02 16:15:20 发布

阅读量312

点赞数

分类专栏：机器学习文章标签：机器学习系统

本文链接：https://blog.csdn.net/u012347642/article/details/80668643

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

建立机器学习系统举例(垃圾邮件分类)：
从邮件的训练集中，为每个邮件建立一个向量，每个元素代表一个单词，一般从训练集中找到最常用的 $10000$ 到 $50000$ 个单词组成向量，如果在邮件中找到该单词，向量对应位置用 $1$ 表示，否则用 $0$ 表示，构建完所有的向量，使用监督学习的逻辑回归模型训练。

常用的提高分类精度的方法：

收集大量的数据；
设计复杂的特征值(例如使用邮件名)；
设计算法改变输入形式(例如识别邮件中的错误拼写)。

但很难说哪个方法一定有效。

构建机器学习系统的建议方法：

从一个可以快速实现的简单算法开始，实现后在交叉验证集上测试；
画出学习曲线，看是高偏差还是高方差来决定是增加样本数还是增加特征值；
误差分析，手动检查被算法分错的交叉验证集中的样本，查看出现了哪些系统性错误。

误差分析可能无法帮你决定是否可以提高性能，唯一的方法是去试试，然后看是否有效果。

在交叉验证集上做误差分析，而不是测试集。

用一个具体数值来评价算法错误率很有必要，作为算法度量值。

偏斜类：正样本和负样本数量相差悬殊。
对于偏斜类，用分类精确度评价并不准确。

查准率/召回率：
这里写图片描述
查准率：对于预测 $y=1$ 的，有多大比例真的为1.

T r u e P o s i t i v e P r e d i c t e d P o s i t i v e

$\dfrac{True\ Positive}{Predicted\ Positive}$ 其中

Predicted Positive=True Positive+False Positive P r e d i c t e d P o s i t i v e = T r u e P o s i t i v e + F a l s e P o s i t i v e $Predicted\ Positive=True\ Positive+False\ Positive$

召回率：对于实际 $y=1$ 的，有多大比例预测为1

T r u e P o s i t i v e A c t u a l P o s i t i v e

$\dfrac{True\ Positive}{Actual\ Positive}$ 其中

Actual Positive=True Positive+False Negative A c t u a l P o s i t i v e = T r u e P o s i t i v e + F a l s e N e g a t i v e $Actual\ Positive=True\ Positive+False\ Negative$

一般，我们将实际发生次数较少的类定义为 $y=1$ 。

实际设计机器学习系统时，应平衡查准率和召回率：
以癌症预测为例：
逻辑回归模型： $0\leqslant h_\theta(x)\leqslant 1$
如果 $h_\theta(x)\geqslant 0.5$ ，则预测为1；
如果 $h_\theta(x)\lt 0.5$ ，则预测为0。
$y=1$ 时，预测有癌症。

若将阈值从 $0.5$ 调高至 $0.7$ ，在交叉验证集上测试，查准率提升，但召回率下降；
若将阈值从 $0.5$ 调低至 $0.3$ ，在交叉验证集上测试，召回率提升，但查准率下降。

如果 $h_\theta(x)\geqslant threshold$ ，则预测为1，设 $Precision(P)$ 为查准率， $Recall(R)$ 为召回率，则：
$F1\ score$ ： $2\dfrac{PR}{P+R}\qquad$ 该值越大越好。
完美的算法： $P=1\quad R=1\quad F1\ score=1$

具备以下条件时，增加训练样本数有助于提高算法精度：

特征值 $x$ 包含足够的信息来准确预测 $y$ ；
假设函数包含很多参数。

痞靥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Coursea-吴恩达-machine learning学习笔记（十一）【week 6之Machine Learning System Design】

建立机器学习系统举例(垃圾邮件分类)：从邮件的训练集中，为每个邮件建立一个向量，每个元素代表一个单词，一般从训练集中找到最常用的100001000010000到500005000050000个单词组成向量，如果在邮件中找到该单词，向量对应位置用111表示，否则用000表示，构建完所有的向量，使用监督学习的逻辑回归模型训练。常用的提高分类精度的方法：收集大量的数据；设计复杂的特征值(...
复制链接

扫一扫

专栏目录