【Stanford机器学习笔记】9-Machine Learning System Design

【Stanford机器学习笔记】9-Machine Learning System Design
摘要由CSDN通过智能技术生成

这一节主要讲如何构建一个机器学习系统以及其中可能遇到的问题。

1. Building a Spam Classifier

1.1 Prioritizing What to Work On

创建一个垃圾邮件分类系统:

  • 构建一个垃圾邮件的常用词字典
  • 通过与字典中的词比较构建特征向量
  • 构建分类器进行训练得到最优分类模型

这里写图片描述

如何优化分类模型,常用的方法:

这里写图片描述

1.2 Error Analysis

当构建一个机器学习应用时,建议的一个顺序是:

  • 首先构建一个比较简单的模型或算法
  • 绘画出该模型的学习曲线,来诊断该模型是否有高偏差和高方差问题,进一步判断收集更多的数据和特征是否有帮助
  • 误差分析,对交叉验证误差进行分析,分析是什么导致了误差,并根据分析结果判断如何改善模型,

这里写图片描述

2. Handling Skewed Data

2.1 Error Metrics for Skewed Classes

(1)偏斜类(Skewed Classes)是指假设一个样本中有两类,其中一类的数目比另一类的样本数目要多的多,这时我们用总体分类精度来评价该机器学习模型可能会出现较大的误差和问题,比如利用一个简单的模型(y=0)就可以获得很高的模型精度,但是这显然不适合实际样本的,所以就需要使用其他方法来对该模型进行评价,避免偏斜类的问题。所以就产生了Precision和Recall评价方法。

这里写图片描述

(2)Precision 和Recall是另一种评价模型精度的方法,对于偏斜类问题能较好的对模型进行评价。

Predicted Class/ Actual Class 1 0
1 True Positive False Positive
0 False Negative True Negative

计算Precision和Recall的公式如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值