机器学习——基本术语

基本术语

对于机器学习,首先需要数据。

![[Pasted image 20240714172953.png]]

例如上图为德国信用数据集(German Credit Dataset)的一部分,其中每个个体或者对象称为样本(Sample)
而反映样本在某方面的表现或者性质的事项,称为属性(Attribute)特征(Feature)。例如上图中的年龄、性别、职业等。
对于具体的样本,其对应于某一属性或者特征上所具有的属性,称为属性值(Attribute value)。例如第二行中性别为“male”。
这些属性张成的空间称为属性空间(Attribute space) 或者样本空间 (Sample space) ,而每一个个体由所含有的特征可表示为一个“特征向量(feature vector)”。如果每个样本由d个属性或者特征所表征,那么该样本 x i x_i xi的维数(dimensionality)为d。

从数据中学到模型的过程称为“学习(learning)”或“训练(training)”,整个过程通常选择某个特定的算法完成。训练过程所使用的样本称为“训练数据(training data)”,其中的每一个样本称为训练样本(training sample),这些训练样本共同组成了训练集(training set)。

学得模型对应了关于数据的某种潜在的规律,称之为“假设(hypothesis)”。这种潜在规律自身称为“真相(ground-truth)”。

对于示例结果的信息,例如对于GC数据集中,个体是否违约这种示例结果的信息,称为“标记(label)”。而这些拥有标记信息的示例,则称为“样例(example)”。由标记所构成的空间,即所有标记的集合也称为“标记空间(label space)”。

如果预测的结果是离散的值,那么此类学习任务称为“分类(classification)”;如果预测的结果是连续值,那么此类学习任务称为“回归(regression)”。
预测结果: { 离散值 ⇒ 分类 连续值 ⇒ 回归 预测结果: \left\{\begin{matrix} 离散值 \Rightarrow 分类\\ 连续值 \Rightarrow 回归 \end{matrix}\right. 预测结果:{离散值分类连续值回归
对于分类问题,根据分类的类别数目,可以将其分为“二分类(binary classification)任务”和“多分类任务(multi-class classification)”。对于二分类问题,通常称其中一个为“正类(positive class)”,一个类为“反类(negative class)”。例如GC数据集中违约可以称为正类,也可以称为反类。
1. 二分类问题是机器学习中的基本问题。
2. 多分类问题可以分解为多个二分类问题。

根据训练数据是否拥有标记信息,学习任务可以分为“有监督学习(supervised learning)”和“无监督学习(unsupervised learning)”。分类和回归是前者的代表,聚类是后者的代表。

学得模型适用于新样本的能力称为泛化(generalization)能力。具有强泛化能力的模型能够很好适用于整个样本空间 χ \chi χ

通常假设样本空间中全体样本服从一个未知的分布(distribution) D \mathcal{D} D,并假设这些样本都是**独立同分布(independent and identically)**的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值