总结：机器学习之基本术语

最新推荐文章于 2024-08-14 11:57:07 发布

小魏的博客

最新推荐文章于 2024-08-14 11:57:07 发布

阅读量529

点赞数 1

文章标签：算法机器学习人工智能深度学习 python

本文链接：https://blog.csdn.net/w2009211777/article/details/124014757

版权

一、数据集

要进行机器学习，首先得有数据。 数据集 是一组关于研究对象的描述。

如一条条告警消息就是数据集，每条告警消息是一个样本。

二、样本

样本也叫示例，一组样本组成一个数据集。

三、属性

样本会有很多属性（或特征），如告警消息的触发器，分组，分类等，属性对应的值叫属性值。

四、属性空间

属性空间也叫样本空间，或输入空间。

假设告警消息有触发器，分组，分类，告警级别四个属性，每个属性一个坐标轴，那么四个属性可以组成一个四维空间，每条告警消息都可以在这个空间中找到自己的坐标位置。

五、特征向量

每个示例在空间中的坐标向量

六、输入空间

一个样本所有特征的集合

七、

D = { x 1 → , x 2 → , ⋯ , x m → } D={x1→,x2→,⋯,xm→} ：包含 m 个样本的数据集
x i → = ( x i 1 ; x i 2 ; ⋯ ; x i d ) xi→=(xi1;xi2;⋯;xid) ： d d 维样本空间 χ χ 中的一个向量， x i → ∈ χ
x i j xij ： x i → xi→ 在第 j j 个属性上的取值，后期可能会用 X ⃗ X→ 展示
d d ： x i → xi→ 的“维数 dimensionlity”

八、

学习 learning/训练 training：从数据中学得模型的过程
训练数据 training data：训练过程中使用的数据
训练样本 training sample：训练中的每个样本
假设 hypothesis：学习模型对应了关于数据某种潜在的规律
真相/真实 ground-truth：潜在规律自身
学习器 learner：模型
预测 prediction：获得训练样本的“结果”信息
标记 label：样本结果的信息
样例 example：拥有标记信息的样本
( x i , y i ) (xi,yi) ：第 i i 个样例， y i ∈ Y ⃗ yi∈Y→ 是示例 x i xi 的标记， Y ⃗ Y→ 是所有标记的集合
标记空间 label space/输出空间：所有标记的集合

分类 classification：预测结果是离散值的学习任务
回归 regression：预测结果是连续值的学习任务
二分类 binary calssification：涉及两个类别
正类 positive class 和反类 negative class：“二分类”中的两个类别
多分类 multi-class classification：涉及多个类别
预测任务：对训练集 { ( x 1 → , y 1 ) , ( x 2 → , y 2 ) , ⋯ , ( x m → , y m ) } {(x1→,y1),(x2→,y2),⋯,(xm→,ym)} 进行学习，建立一个从输入空间 X ⃗ X→ 到输出空间 Y ⃗ Y→ 的映射 f : X ⃗ → Y ⃗ f:X→→Y→ ，通常令 Y ⃗ = { − 1 , + 1 } Y→={−1,+1} 或 { 0 , 1 } {0,1} ；对于多分类任务， | Y ⃗ | > 2 |Y→|>2 ；对回归任务， | Y ⃗ | = R |Y→|=R ， R R 为实数集
测试 testing：对学得模型进行预测的过程
测试样本 testing sample：被预测的样本，例如学得 f f 后，对测试例 x ⃗ x→ ，可得到其预测标记 y = f ( x ) y=f(x)

泛化 generalization：学得模型适用于新样本的能力
分布 distribution D D ：通常假设样本空间中全体服从一个未知“分布”
独立同分布 independent and identically distributed i . i . d . i.i.d. ：每个样本都是独立地从这个分布上采样获得的