目录
6、样本集(sample set)、数据集(data set)
11、标记空间(label space)、输出空间(output space):
13、训练数据(training data)、训练样本(training sample)、训练集(training set):
14、测试(testing)、测试样本(testing sample):
1、假设(hypothesis)、假设空间(hypothesis space):
前言
有很多新手刚刚接触大数据与人工智能方向学习,如果不知道怎么着手的,跟我一起慢慢进步叭~
提示:以下是本篇文章正文内容,下面案例可供参考
一、什么是机器学习?
定义一:机器学习是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。
定义二:以P评价计算机程序关于某类任务T上的性能,如果某程序利用经验E使T中的任务获得了性能改善,则称该程序对经验E进行了学习。
定义三:机器学习是一门让计算机无需显式编程即可运行的科学。
定义四:机器学习是一种数据科学技术,它帮助计算机从现有数据中学习,从而预测未来的行为、结果和趋势。
二、机器学习的相关术语
1、样本(sample)、示例(instance):
所研究对象的一个个体,相当于统计学中的实例。样本也称示例。
2、特征(feature)、属性(attribute):
用于表征样本的观测,通常是数值表示的某些量化特征,特征也称属性。如大小,颜色等
3、属性值:
属性上的取值,即为属性值。如“大”“乌黑”等。
4、属性空间、样本空间、输入空间:
由属性张成的空间称为属性空间,又称样本空间或输入空间。
5、特征空间、样本点、特征向量、特征维数:
分别以每个特征作为一个坐标轴,所有特征所在坐标轴张成一个用于描述不同样本的空间,称为特征空间。
在该空间内,每个具体样本就对应空间的一个点,在这个意义下,也称样本为样本点。
每个样本点对应特征空间的一个向量,称为特征向量。
特征的数目即为特征空间的维数。
6、样本集(sample set)、数据集(data set)
若干样本构成的集合,成为样本集,又称数据集。
该集合的每个元素就是一个样本。
例:d维特征空间的m个观测样本构成样本集D,D={x1,x2,…,xm},xi=[x11,x12,…,x1d]T
7、测试样本(testing sample):
学得模型后,使用该模型进行预测的过程称为测试,被测试的样本则称为测试样本。
8、标记(label):
前面的样本数据显然是不够的,要建立关于预测的模型,我们需获得训练样本的结果信息,例如((色泽=青绿;根蒂=蜷缩),好瓜),这里的“好瓜”称为标记,拥有了标记信息的示例,则称为样例。
9、已知样本(known sample)
标签已知的样本,称为已知样本。
10、未知样本(unknown sample)
标签未知的样本,称为未知样本。
11、标记空间(label space)、输出空间(output space):
一般地,用(xi,yi)表示第i个样例,所有标记的集合,称为标记空间,也称输出空间。
12、学习(learning)、训练(training):
指从数据中学得模型的过程,通过执行某个学习算法来实现。
13、训练数据(training data)、训练样本(training sample)、训练集(training set):
训练过程中使用的数据,称为训练数据。