什么是机器学习
机器学习(Machine Learning)的一些概念
概念: 机器学习是一门多领域交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
学科定位: 机器学习是人工智能(Artificial Intelligence,AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
定义: 机器学习探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。
学习: 机器学习针对经验E(experience)和一系列的任务 T(tasks)和一定表现的衡量 P,如果随经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。
举例说明:下棋,下多少盘棋是经验E,把这一盘棋下赢就是任务T,提高下赢的概率就是衡量P。
什么是深度学习
深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。
其概念由著名科学家Geoffrey Hinton等人在2006年和2007年在《Sciences》等上发表的文章被提出和兴起。
深度学习作为机器学习中延伸出来的一个领域,被应用在图像处理与计算机视觉,自然语言处理以及语音识别等领域。
机器学习的相关概念
概念学习:
概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
训练集(training set/data)/训练样例(training examples):
用来进行训练,也就是产生模型或者算法的数据集。
测试集(testing set/data)/测试样例 (testing examples):
用来专门进行测试已经学习好的模型或者算法的数据集。
特征向量(features/feature vector):
属性的集合,通常用一个向量来表示,附属于一个实例。
标记(label):表示为c(x), 实例类别的标记。
正例(positive example):实例的标记为是。
反例(negative example):实例的标记为否。
举例说明:
例1:
小明进行水上运动,是否享受运动取决于很多因素,如下表所示:
以下每个实例的各项属性和相关的取值:
天气:晴,阴,雨
温度:暖,冷
湿度:普通,大
风力:强,弱
水温:暖,冷
预报:一样,变化
实例标记是是否享受运动,有两种取值
享受运动:是,否
概念定义在实例(instance)集合之上,这个集合表示为X。(X:所有可能的日子,每个日子的值由 天气,温度,湿度,风力,水温,预报 6个属性来表示。)
待学习的概念或目标函数成为目标概念(target concept),记做c。
c(x) = 1 时,为享受运动, c(x) = 0 时,不享受运动。c(x)也可叫做y。
小写x:每一个实例
大写X:样例,所有实例的集合
学习目标:f: X -> Y
例2:
例2相比例1,最主要的区别就是例2的实例的标记是连续数值取值,不仅仅只有两个取值。
这就引出了以下的概念:
分类 (classification):目标标记为类别型数据(category) 。
回归(regression):目标标记为连续性数值 (continuous numeric value)。
有监督学习(supervised learning): 训练集有类别标记(class label)。
无监督学习(unsupervised learning): 训练集无类别标记(class label)。
半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集。
机器学习步骤框架:
- 把数据拆分为训练集和测试集
- 用训练集和训练集的特征向量来训练算法
- 用学习来的算法运用在测试集上来评估算法