1、什么是机器学习
提供了机器学习的两个定义。Arthur Samuel将其描述为:“研究领域,使计算机无需明确编程即可学习。” 这是一个较旧的非正式定义。
Tom Mitchell提供了一个更现代的定义:“据说计算机程序可以从经验E中学习某些任务T和绩效测量P,如果它在T中的任务中的表现(由P测量)随经验E而提高。 “
示例:玩跳棋。
E =玩许多跳棋游戏的经验
T =玩跳棋的任务。
P =程序赢得下一场比赛的概率。
通常,任何机器学习问题都可以分配到两个广泛的分类之一:
监督学习和无监督学习。
2、机器学习专有名词
监督学习(supervised learning):
在有监督的学习中,我们得到一个数据集,并且已经知道我们的正确输出应该是什么样的,并且认为输入和输出之间存在关系。
监督学习问题分为“回归”和“分类”问题。在回归问题中,我们试图在连续输出中预测结果,这意味着我们正在尝试将输入变量映射到某个连续函数。在分类问题中,我们试图在离散输出中预测结果。换句话说,我们试图将输入变量映射到离散类别。
无监督学习(unsupervised learning):对已知类别的数据划分簇
无监督学习使我们能够在很少或根本不知道我们的结果应该是什么样的情况下解决问题。我们可以从数据中导出结构,我们不一定知道变量的影响。
我们可以通过基于数据中变量之间的关系聚类数据来推导出这种结构。
在无监督学习的情况下,没有基于预测结果的反馈。
模型(model):计算机层面的认知
学习算法(learning algorithm),从数据中产生模型的方法
数据集(data set):一组记录的合集
示例(instance):对于某个对象的描述
样本(sample):也叫示例
属性(attribute):对象的某方便表现或特征
特征feature):同属性
属性值(attribute value):属性上的取值
属性空间(attribute space):属性张成的空间
样本空间/输入空间(samplespace):同属性空间
特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量
维数(dimensionality):描述样本参数的个数(也就是空间是几维的
学习(learning)/训练(training):从数据中学得模型
训练数据(training data):训练过程中用到的数据
训练样本(training sample):训练用到的每个样本
训练集(training set):训练样本组成的集合
假设(hypothesis):学习模型对应了关于数据的某种潜在规则
真相(group-true):真正存在的潜在规律
学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化
预测(prediction):判断一个东西的属性
标记(label):关于示例的结果信息,比如我是一个“好人”。
样例(example):拥有标记的示例
标记空间/输出空间(label space):所有标记的集合
分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务
回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的
二分类(binary classification):只涉及两个类别的分类任务
正类(positive class):二分类里的一个
反类(negative class):二分类里的另外一个
多分类(multi-class classification):涉及多个类别的分类
测试(testing):学习到模型之后对样本进行预测的过程
测试样本(testing sample):被预测的样本
聚类(clustering):把训练集中的对象分为若干组
簇(cluster):每一个组叫簇
未见示例(unseen instance):“新样本“,没训练过的样本
泛化(generalization)能力:学得的模型适用于新样本的能力
分布(distribution):样本空间的全体样本服从的一种规律
矩阵的维数:m*n