Machine Learning “for Dummies” (Part 1)

机器学习“傻瓜书”(一)

你可能已经听说过“机器学习”(或者“数据挖掘”、“大数据”、”数据分析“、“云计算”)但是你并不确切的了解它们究竟是神马。你可能知道它们是一些计算机或数学的玩意儿,可能你已经使用过依赖机器学习的软件,但对你而言它就像魔术。

机器学习应用广泛,例如银行用它探查诈骗或者预估风险,邮件管理器用它过滤垃圾邮件,医生用它帮助诊断,生物学家用它分析DNA,谷歌、必应、雅虎用它回答你的问题,等等。

这个系列的文章主要基于示例,目的是让你了解该技术工作的原理从而对机器学习有一定的概念。(译者注:本系列文章是“傻瓜书”,低门槛知识普及)

主题分为三个文章。第一篇介绍机器学习的主要任务:分类。第二篇展示两个重要的用于分类的技术(算法)。最后一篇将会讨论计算机科学家如何评估机器学习的品质。

定义

很难给机器学习一个实际的定义。姑且称之为可以用作预测或者帮助用户理解复杂现象的程序项目吧。
机器学习是个很大的话题。为了不至于太宽泛我会仅仅集中于一个主题:“分类”。“分类”只是机器学习的子领域,但是它是最重要的主题之一。当人们谈论机器学习的时候,经常会提及分类。

分类

分类的思想是这样的:我们有一些列观察值。对机器学习而言观察值一般是一个物体或一个情形的描述。为了帮助理解,让我们用一个常见的例子:鸢尾花。假设一个观察值是单个花的描述:对每朵花而言,我们有4个度量:花瓣和花萼的宽和长(cm)。鸢尾花可能不是最令人感兴趣的例子,但是它简单实际便于理解机器学习。那么现在告诉你鸢尾花例子被称作“鸢尾花数据集”,它被广泛用于机器学习的测试和理解分类算法。



每朵花的这4个度量被称作“属性”。在机器学习中,观察值就是一系列的属性。当我们对比观察值的时候,其实是在对比属性:例如,这朵花的花瓣比另一朵的要长。属性可以表示不同的事物(例如,飞机的长度,风暴的持续时间,室内温度,墙壁的颜色)。一般来说属性被分为两类:数值或者类别。两者的界限并不总是很清晰,但是当比较(<或>)一个属性的不同值的时候,我们一般认为这个属性是数值,否则我们说它是个类别(例如花的颜色或者狗的种类)。
另外,对每个观察(例如鸢尾花),我们有一个“类”。一个类是关于观察的额外信息位。在我们的例子中,假设一个鸢尾花的类是这朵花的种类。为了简单,我们只关心3类鸢尾花:Setosa,Versicolour和Viginica。
现在我们有了一系列鸢尾花的观察值。每个观察有一系列属性和类。具体可见下面的表格。类似这种表就称作“数据集”。



我们假设,总体我们有150个鸢尾花观测值,但是最后一朵我们并不知道它的类。我们可以问自己一个问题:鸢尾花的种类是和它的花瓣、花萼的尺寸有关的吗?可能一类花的花瓣尺寸比另一类的长?换句话说,我们可以根据用149朵鸢尾花的属性及类通过对比找到最后那朵花的类吗?这就是典型的分类问题。正式点来表达就是:假设我们有一系列带注释的观测值和一个无注释的观测值。我们怎么找到无注释项的类?

实际上,分类并不仅仅用于花朵种类等,也会用于深层次的情形,例如数码相机用分类来找到图片中的人脸,邮局用分类识别手写地址,商人用分类预测市场行情。天气学家用分类预测天气等等。

所有这些例子的主要不同是他们的属性。例如对于银行客户,属性会是月收入,信用度等。对于医院的患者属性会是性别,健康级等。

下一篇将解释如何进行分类!详细介绍两个广泛使用的算法,尽情享受吧。

Machine Learning “for Dummies” (Part 2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值