第一章 机器学习概述
当大多数人听到“机器学习“的字眼时,他们往往会想到机器人:一个可靠的管家,或者致命的终结者,这取决于你问谁。但是机器学习不仅仅是科幻,它已经真实存在。事实上,在一些特定的应用中,它已经存在了几十年了,比如OCR(光学字符识别)。但是第一个真正成为主流的,改变成千上万人生活的机器学习应用可以追溯到20世纪90年代:即垃圾邮件过滤。尽管它不是一个有着自我意识的天网程序,但是从技术的角度,它仍可以称作是机器学习(事实上,它已经“学习“的足够好了,你甚至都不需要再手动去标记一封邮件为垃圾邮件了)。在它之后,涌现了数百种机器学习的应用,他们无声无息的加强了我们经常用到的一些产品或者特性,比如更好的推荐,语音搜索等。
机器学习从哪里开始的?其最终宿命又会是怎样的?对于一台机器而言,学习到底意味着什么?如果我才Wikipedia上下载了一份拷贝,我的计算机真的“学习”了么?它突然变聪明了么?这一章我们就先讲讲机器学习到底是什么以及为什么你会想要使用它。
在我们出发探索机器学习的大陆之前,我们会先看看地图,了解以下主要的地区和最著名的地标:有监督学习和无监督学习,在线学习和批量学习,基于样例的学习和基于模型的学习。然后我们会学习一个典型的机器学习项目的工作流,讨论你可能会面临的主要挑战,然后再讲如何评价和微调一个机器学习系统。
这章会介绍一些基本概念,每一个数据科学家都应该烂熟于心。本章是一个概述性的章节,比较简单,但是在进行后续章节的学习之前,你必须保证所有的内容你都了然。