【Stanford机器学习笔记】9-Machine Learning System Design

这篇笔记介绍了构建垃圾邮件分类器的过程,包括建立常用词字典,构造特征向量和训练分类模型。还讨论了处理偏斜数据的重要性,如使用精确度和召回率作为评价指标,以及在精度和召回率之间做出权衡的F Score。最后,强调了在大型数据集上训练模型以降低偏差和方差的优势。
摘要由CSDN通过智能技术生成

这一节主要讲如何构建一个机器学习系统以及其中可能遇到的问题。

1. Building a Spam Classifier

1.1 Prioritizing What to Work On

创建一个垃圾邮件分类系统:

  • 构建一个垃圾邮件的常用词字典
  • 通过与字典中的词比较构建特征向量
  • 构建分类器进行训练得到最优分类模型

这里写图片描述

如何优化分类模型,常用的方法:

这里写图片描述

1.2 Error Analysis

当构建一个机器学习应用时,建议的一个顺序是:

  • 首先构建一个比较简单的模型或算法
  • 绘画出该模型的学习曲线,来诊断该模型是否有高偏差和高方差问题,进一步判断收集更多的数据和特征是否有帮助
  • 误差分析,对交叉验证误差进行分析,分析是什么导致了误差,并根据分析结果判断如何改善模型,

这里写图片描述

2. Handling Skewed Data

2.1 Error Metrics for Skewed Classes

(1)偏斜类(Skewed Classes)是指假设一个样本中有两类,其中一类的数目比另一类的样本数目要多的多,这时我们用总体分类精度来评价该机器学习模型可能会出现较大的误差和问题,比如利用一个简单的模型(y=0)就可以获得很高的模型精度,但是这显然不适合实际样本的,所以就需要使用其他方法来对该模型进行评价,避免偏斜类的问题。所以就产生了Precision和Recall评价方法。

这里写图片描述

(2)Precision 和Recall是另一种评价模型精度的方法,对于偏斜类问题能较好的对模型进行评价。

Predicted Class/ Actual Class 1 0
1 True Positive False Positive
0 False Negative True Negative

计算Precision和Recall的公式如下:

机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。在过去的十年中,机器学习帮助我们自动驾驶汽车,有效的语音识别,有效的网络搜索,并极大地提高了人类基因组的认识。在本课中,将学习最有效的机器学习技术,并获得实践,让它们为自己的工作。更重要的是,不仅得到理论基础的学习,而且获得那些需要快速和强大的应用技术解决问题的实用技术。最后,会学到一些硅谷利用机器学习和人工智能的最佳实践创新。本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。主题包括: (一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。 (二)无监督学习(聚类,降维,推荐系统,深入学习推荐)。 (三)在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。 本课程还将使用大量的案例研究,您还将学习如何运用学习算法构建智能机器人(感知,控制),文本的理解(Web 搜索,反垃圾邮件),计算机视觉,医疗信息,音频,数据挖掘,和其他领域。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值