内容概述
本章简单介绍了机器学习的定义、用途及步骤。并简单介绍了目前机器学习领域最常用的语言Python的流行原因及优缺点,以及一个在机器学习里常用的库:NumPy。
机器学习,是以计算机技术为手段,运用统计学的知识,利用从传感器等数据源里传来的海量数据,来对其进行分类、预测及理解的一门学科。
我们在迈入互联网时代后,从前困扰我们的信息不足的问题已经基本解决。代替它的,是一个和它完全相反的问题:我们能够获得的信息太多了,并且有些数据看上去杂乱无章,毫无逻辑;或维度数超过三维,无法被人类直观地感知。信息的价值是无穷大的,无论是为了理解这个世界,还是为了从如泥沙般的信息海里挖掘出有效信息,进而谋取利益,我们都需要找到一种方法来解决这个问题。于是,机器学习应运而生了,
机器学习的主要任务分为两大类:监督学习及非监督学习。前者是指在运行算法前,程序设计者已经明确了所用数据的分类信息,只需要按照这一信息对数据进行处理即可。其处理方法分为两类:分类和回归。分类通常使用标称型数据(在有限的数据中取,且只存在是/否这种结果),在进行分类前,程序设计者往往挑选出数个最能够区分数据的属性(也称之为特征),并使用这些属性进行分类。而回归则不同,它使用的往往是连续型数据,其目的是为了进行预测数据的走向。由于监督学习时,我们了解目标物的信息,因此我们可以制造出一批符合预期效果的数据,并将其输入到训练好的算法中,用结果与实际结果相比,来作为评价算法优劣的标准。
与监督学习对应的,就是非监督学习。顾名思义,它就是在设计程序时,既不知道数据的类别信息,