机器学习实战-char1 机器学习基础
主要讨论的是监督学习(supervised learning),在监督学习的过程中,只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。
监督学习一般使用两种类型的目标变量:标称型和数值型。标称型目标变量只在有限目标集中取值,例如真与假、动物分类集合{爬行类、鱼类、哺乳类、两栖类};数值型目标变量可以从无限的数值集合中取值,如0.2、199、2000。
一、机器学习的简单概述
简单来说,机器学习就是把无序的数据转换成有用的信息。
如今技术的进步使得获得数据成为一件易事,当人们面对海量的数据时,如何从海量数据中抽取到有价值的信息将是一件非常重要的是课题。
在过去的半个世纪,发达国家的多数岗位都已从体力劳动转化为脑力劳动。大量的经济活动都依赖于信息,我们不能在海量信息中迷失,机器学习将是我们有力的武器,使我们从中获取到有用信息。
下面将要介绍一些术语。
- 特征:例如我们为了区分不同的鸟类,需要使用到不同的特征属性,选用体重、翼展、脚蹼以及后背颜色作为评测标准。我们所挑选的这四种值称之为特征,也称为属性。
体重(克) | 翼展(厘米) | 脚蹼 | 后背颜色 | 种属 | |
---|---|---|---|---|---|
1 | 1000.1 | 125.0 | 无 | 棕色 | 红尾鵟 |
2 | 3000.7 | 200.0 | 无 | 灰色 | 鹭鹰 |
3 | 3300.0 | 220.3 | 无 | 灰色 | 鹭鹰 |
4 | 4100.0 | 136.0 | 有 | 黑色 | 普通潜鸟 |
5 | 3.0 | 11.0 | 无 | 绿色 | 瑰丽蜂鸟 |
6 | 570.0 | 75.0 | 无 | 黑色 | 象牙喙啄木鸟 |
- 分类:机器学习的主要任务就是分类。通过传感器拍摄到一直鸟,我们可获得上面的几项信息,计算机通过这些信息来判别这只鸟属于哪一类,这就是分类。
- 训练集:当已经决定用某个机器学习算法进行分类,首先要做的就是算法训练,即学习如何分类。通常我们为算法输入大量输入大量已分类数据作为算法的训练集。(特征或者属性一般是训练样本集的列,他们是独立测量的结果,多个特征联系在一起共同组成一个训练样本。)
- 目标变量:目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
- 训练数据和测试数据:训练数据是机器学习算法用来学习如何分类的,测试数据是训练完成后用来观察算法的效果的。输入测试样本时无需样本的目标变量,有程序决定样本属于哪个类别,比较测试样本预测的目标变量域实际样本类别之间的差别就可以得到算法的实际精确度。
二、机器学习的主要任务
机器学习的任务主要是分类和回归。分类就是讲实例数据划分到合适的类别中。回归主要用于预测数值型数据。分类和回归属于监督学习,之所以称为监督学习,是因为这类算法必须知道预测什么,及目标变量的分类信息。
与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。
在无监督学习中,将数据集合分成由类似的对象组成的多个类别的过程称为聚类;将寻找描述数据统计值的过程称为密度估计。
下表列出了机器学习的主要任务,以及解决相应问题的算法。
监督学习的用途 | |
---|---|
k-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ridge回归 |
决策树 |