一、数据集
要进行机器学习,首先得有数据。 数据集 是一组关于研究对象的描述。
如一条条告警消息就是数据集,每条告警消息是一个样本。
二、样本
样本也叫示例,一组样本组成一个数据集。
三、属性
样本会有很多属性(或特征),如告警消息的触发器,分组,分类等,属性对应的值叫属性值。
四、属性空间
属性空间也叫样本空间,或输入空间。
假设告警消息有触发器,分组,分类,告警级别四个属性,每个属性一个坐标轴,那么四个属性可以组成一个四维空间,每条告警消息都可以在这个空间中找到自己的坐标位置。
五、特征向量
每个示例在空间中的坐标向量
六、 输入空间
一个样本所有特征的集合
七、
- D = { x 1 → , x 2 → , ⋯ , x m → } D={x1→,x2→,⋯,xm→} :包含 m 个样本的数据集
- x i → = ( x i 1 ; x i 2 ; ⋯ ; x i d ) xi→=(xi1;xi2;⋯;xid) : d d 维样本空间 χ χ 中的一个向量, x i → ∈ χ
- x i j xij : x i → xi→ 在第 j j 个属性上的取值,后期可能会用 X ⃗ X→ 展示
- d d : x i → xi→ 的“维数 dimensionlity”
八、
- 学习 learning/训练 training:从数据中学得模型的过程
- 训练数据 training data:训练过程中使用的数据
- 训练样本 training sample:训练中的每个样本
- 假设 hypothesis:学习模型对应了关于数据某种潜在的规律
- 真相/真实 ground-truth:潜在规律自身
- 学习器 learner:模型
- 预测 prediction:获得训练样本的“结果”信息
- 标记 label:样本结果的信息
- 样例 example:拥有标记信息的样本
- ( x i , y i ) (xi,yi) :第 i i 个样例, y i ∈ Y ⃗ yi∈Y→ 是示例 x i xi 的标记, Y ⃗ Y→ 是所有标记的集合
- 标记空间 label space/输出空间:所有标记的集合
监督学习 supervised learning
-
分类 classification:预测结果是离散值的学习任务
-
回归 regression:预测结果是连续值的学习任务
-
二分类 binary calssification:涉及两个类别
-
正类 positive class 和 反类 negative class:“二分类”中的两个类别
-
多分类 multi-class classification:涉及多个类别
-
预测任务:对训练集 { ( x 1 → , y 1 ) , ( x 2 → , y 2 ) , ⋯ , ( x m → , y m ) } {(x1→,y1),(x2→,y2),⋯,(xm→,ym)} 进行学习,建立一个从输入空间 X ⃗ X→ 到 输出空间 Y ⃗ Y→ 的映射 f : X ⃗ → Y ⃗ f:X→→Y→ ,通常令 Y ⃗ = { − 1 , + 1 } Y→={−1,+1} 或 { 0 , 1 } {0,1} ;对于多分类任务, | Y ⃗ | > 2 |Y→|>2 ;对回归任务, | Y ⃗ | = R |Y→|=R , R R 为实数集
-
测试 testing:对学得模型进行预测的过程
-
测试样本 testing sample:被预测的样本,例如学得 f f 后,对测试例 x ⃗ x→ ,可得到其预测标记 y = f ( x ) y=f(x)
无监督学习 unsupervised learning
- 聚类 clustering:将训练集中的西瓜分成若干组
- 簇 cluster:“聚类”中的每一组。每一簇都可能对应一些潜在的概念划分并且这些概念我们事先是不知道的
进阶
- 泛化 generalization:学得模型适用于新样本的能力
- 分布 distribution D D :通常假设样本空间中全体服从一个未知“分布”
- 独立同分布 independent and identically distributed i . i . d . i.i.d. :每个样本都是独立地从这个分布上采样获得的
假设空间
- 科学推理的两大基本手段:归纳 induction 与 演绎 deduction
- 归纳:从特殊到一般的“泛化 generalization”过程,即从具体的事实归结出一般性规律
- 演绎:从一般到特殊的“特化 specialization”过程,即从基础原理推演出具体状况
- 归纳学习 inductive learning:从样例中学习
- 广义归纳学习:相当于从样例中学习
- 狭义归纳学习:从训练数据中学得概念,因此也称为“概念学习”或“概念形成”
- 布尔概念学习:对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习
- 学习过程:在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配 fit”的假设,
- 假设空间:能将训练集中的样本判断为正确的假设的集合
- 版本空间 version space:一个与训练集一致的“假设集合”
归纳偏好
“版本空间”中可能有多个假设对应训练集中的某个样本,但是多个假设可能有不同的输出,那么应该采用哪一个模型(或假设)呢?
- 归纳偏好 inductive bias:算法在学习过程中对某种类型假设的偏好
- 如果没有归纳偏好:学得模型预测时时而告诉我们它是好的,时而告诉我们它是不好的
- 奥卡姆剃刀 Ocam’s razor:若有多个假设与观察一致,则选最简单的那个
- “没有免费的午餐”定理 No Free Lunch Theorem:无论学习算法 a a 多聪明、学习算法 b b 多笨拙,它们的期望性能都会相同。
- NFL 定理前提:所有“问题”出现的机会相同、或所有问题同等重要
- NFL 定理最重要的寓意:空泛的谈“什么学习算法更好毫无意义”,因为若考虑所有潜在的问题,则学习算法都一样好
- 噪声:出现不应该出现的数据,例如相同的属性得出不一样的分类
机器学习研究的主要内容:在计算机中从数据中产生“模型 model”的算法,即“学习算法 learning algorithm”。
计算机科学研究“算法”;机器学习研究“学习算法”。
大多数时候算法的归纳偏好是否与问题本身匹配,直接决定了算法能否取得好的性能。
参考: