机器学习笔记:基本概念与术语

数据(data)与模型(model)

人类通过经验认识这个世界形成自己的认知,再根据自己的认知去预测这个世界,机器学习(machine learning)就是试图利用计算机代替人类完成这一过程,“经验”在计算机中以数据的形式出现,通过某种方式从数据中形成模型,“某种方式”即是机器学习的主要内容,称为“学习算法”(learning algorithm).

模型模式

模型是指全局性规则,而模式指其中一条小规则

基本术语

为了方便说明,以下是一些数据,我们希望通过姓名、身高、体重判断以下描述的性别特征

(姓名=小明,身高=173,体重=69,)(姓名=小红,身高=168,体重=50,)(姓名=小张,身高=183,体重=78,)

  • 数据集(data set):用于训练模型的所有数据的集合
  • 示例(instance)(样本(sample)):其中单条数据
  • 属性(attribute)(特征(feature)):数据的键,如姓名
  • 属性值(attribute value):键对应的值
  • 属性空间(attribute space) 样本空间 (sample space)输入空间:各属性作为一条坐标轴形成的几何空间,每一个样本对应空间中的一个点
  • 特征向量(feature vector):每个点对应的向量
  • 维数(dimensionality):每个样本所包含的属性数,也指样本空间的维度
  • 学习(learning)与训练(training):数据形成模型的过程,通过学习算法实现
  • 训练数据(training data)与训练集(traing set):用于训练模型所用的数据
  • 训练样本(traing sample):用于训练的单条数据
  • 假设(hypothesis):通过学习数据得到的潜在规律
  • 真相(ground-truth):规律本身,
  • 学习器(learner):模型的别称
  • 标签(lable):数据对应的结果,如小明性别为男
  • 样例(example):拥有结果的样本
  • 预测(prediction):利用模型得到结果的过程
  • 测试(testing):预测的过程
  • 分类(classification)与回归(regression):预测的是离散的结果的称为分类,预测的是连续的结果称为回归
  • 分类与聚类(clustering):聚类是自动的形成划分,分类存在某种标准与标签
  • 监督学习(supervised learning)与无监督学习(unsupervised learning):分类与回归是监督学习,聚类是无监督学习
  • 泛化能力(generalization):模型适用于新样本的能力

假设空间

在前面提到的样本空间,我们在每个轴新添加无关性,即结果与其中某个或多个属性无关,这样构成的搜索空间称为假设空间,学习过程就是在这样的一个空间里找到符合样本的假设。

归纳偏好

机器学习就是一个归纳的过程,我们在假设空间归纳训练数据,获得的假设可能存在多个,但是我们可以设置偏好,这样我们仍然可以得到唯一性模型,具体使用什么样的偏好要根据问题本身分析,因为所有学习算法本身并无差异,可以说和胡乱猜测是一样的效果,这就是著名的NFL定理,但是具体到不同的问题,不同的算法都要自己独特的优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值