1.2.1基本概念
1.输入空间,特征空间与输出空间
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)。
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示,这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。
在监督学习过程中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。输入、输出变量用大写字母表示,习惯上输入变量写作X,输出变量写作Y。输入与输出变量所取的值写作x和y.变量可以是标量或向量,都用相同类型字母表示,除特别声明外,
本书中向量均为列向量,输入实例x的特征向量记作
x(i) x ( i ) 表示x的第i个特征。注意 x(i) x ( i ) 与 xi x i 不同,本书通常用 xi x i 表示多个输入变量中的第i个,即
监督学习从训练数据(training data)集中学习模型,对测试数据(test data)进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为:
从数据中学得模型的过程称为“学习(learning)”或者“训练(training)”这个过程通过执行某个学习算法完成
学得模型对应了关于数据的某种潜在的规律,因此称为“假设(hypothesis)”;这种潜在规律自身,则称为“真相”或“真实(ground-truth),学习过程就是为了找出或者逼近真相
机器学习的目的就是为了找到这种规律
以概率论的说法来说:通过大量随机试验E,当重复实验的次数n逐渐增大时,频率
fn(A)
f
n
(
A
)
呈现出稳定性,逐渐稳定于某个常数,这种“频率稳定性”即通常所说的统计规律性。A:试验E的样本空间S的子集为E的随机事件,简称事件
比如说:扔硬币,假设 A为正面这个事件,随着重复实验的次数n逐渐增大,,频率
fn(A)
f
n
(
A
)
逐渐逼近
12
1
2
。因此我们知道了它的概率分布情况,
X | -1 | 1 |
---|---|---|
pk p k | 12 1 2 | 12 1 2 |
当然机器学习比概率论复杂多了,上面的例子为0-1分布,它是更为复杂的概率分布。
对比机器学习:通过从大量训练数据集中学得模型,学得的模型可以是概率模型或非概率模型,有条件概率分布P(Y|X)或者是决策函数Y=f(X)表示,对具体的输入进行相应的输出预测时,写作P(y|x)或y=f(x)。
测试数据也由相应的输入与输出对组成。输入与输出对又称为样本(sample)或样本点。
2.联合概率分布
联合概率分布简称联合分布,对随机向量 的概率分布,称为随机变量 的联合概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过非负函数的积分表示
统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
3.假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习范围的确定。
在确立学习的任务之后,一般会假设结果可能的模型,而这些模型的集合就是假设空间。学习算法的目的就在于给定了损失函数之后在这些模型之中找到最优的模型。
4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”。任何一个有效的机器学习算法必有其归纳偏好。
“奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
无论学习算法a多聪明、学习算法b多笨拙,它们的期望性能是相同的,这就是“没有免费的午餐”(No Free Lunch Theorem,简称NFL定理)。NFL 定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要,但实际情形并不是这样。NFL 定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,要谈论算法的相对优劣,必须要针对具体的学习问题。学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。
1.2.2 问题的形成
也称为输入或实例, yiϵY y i ϵ Y 是输出的观测值,也称为输出
条件概率分布P(Y|X)或决策函数Y= f(X)描述输入与输出随机变量之间的映射关系