机器学习“傻瓜书”(一)
你可能已经听说过“机器学习”(或者“数据挖掘”、“大数据”、”数据分析“、“云计算”)但是你并不确切的了解它们究竟是神马。你可能知道它们是一些计算机或数学的玩意儿,可能你已经使用过依赖机器学习的软件,但对你而言它就像魔术。
机器学习应用广泛,例如银行用它探查诈骗或者预估风险,邮件管理器用它过滤垃圾邮件,医生用它帮助诊断,生物学家用它分析DNA,谷歌、必应、雅虎用它回答你的问题,等等。
这个系列的文章主要基于示例,目的是让你了解该技术工作的原理从而对机器学习有一定的概念。(译者注:本系列文章是“傻瓜书”,低门槛知识普及)
主题分为三个文章。第一篇介绍机器学习的主要任务:分类。第二篇展示两个重要的用于分类的技术(算法)。最后一篇将会讨论计算机科学家如何评估机器学习的品质。
定义
分类
我们假设,总体我们有150个鸢尾花观测值,但是最后一朵我们并不知道它的类。我们可以问自己一个问题:鸢尾花的种类是和它的花瓣、花萼的尺寸有关的吗?可能一类花的花瓣尺寸比另一类的长?换句话说,我们可以根据用149朵鸢尾花的属性及类通过对比找到最后那朵花的类吗?这就是典型的分类问题。正式点来表达就是:假设我们有一系列带注释的观测值和一个无注释的观测值。我们怎么找到无注释项的类?
实际上,分类并不仅仅用于花朵种类等,也会用于深层次的情形,例如数码相机用分类来找到图片中的人脸,邮局用分类识别手写地址,商人用分类预测市场行情。天气学家用分类预测天气等等。
所有这些例子的主要不同是他们的属性。例如对于银行客户,属性会是月收入,信用度等。对于医院的患者属性会是性别,健康级等。
下一篇将解释如何进行分类!详细介绍两个广泛使用的算法,尽情享受吧。