基于《机器学习》学习整理- chapter 1
@(机器学习)[数据]
数据
机器学习的基本-数据,记录的集合-数据集。其中每条记录是一个实体的描述或者实例。通常每个实例又会有自己的属性特征,用一组不同的属性特征来从不同的方面来描述该实例,这些属性特征可以对应不同的特征值,那么就可以形成描述实例的”特征向量”。
简单的代数描述:
数据集D = {
x1,x2,...,xm
},表示共有m个实例;
若每个实例又有d个属性描述,则每个实例
xi=(xi1,xi2,..,xid)
;
其中
xij
表示第i个实例在第j个属性上的取值。
(xi,yi)
表示第i个实例,其中
yi∈Y
是实例
xi
的标记(label),Y是所有标记的组合,标记空间或者输出空间。
- 训练集:训练样本组成的数据集;
- 假设:学得模型对应了关于数据的某种潜在的规律;
- 模型:学习器,可看作是学习算法在给定数据和参数空间上的实例化。
分类和回归和聚类
若我们预测的是离散值,此类学习任务即为分类,classification;若我们预测的是连续值,此类学习任务即为回归,regression;这两类是监督学习(supervised learning)的代表,聚类是无监督学习(unsupervised learning)的代表。
一般地,预测任务是希望通过对训练数据集{
(x1,y1),(x2,y2),...,(xm,ym)
}进行学习,建立一个从输入空间
χ
到输出空间
Y
的映射
一般而言,学得模型适用于新样本的能力,成为”泛化能力“,具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中全体样本服从一个未知分布
假设空间
归纳学习
从样例中学习归纳,狭义上又称为概念学习或概念形成。其中最基本的是布尔概念学习,可表示为0/1布尔值的目标概念的学习。
学习过程
学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的样例判断正确的假设。假设的表示一旦确定,那么假设空间及规模大小就确定了。
学习的过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合”,称之为”版本空间“(version space).
归纳与偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为”归纳偏好“(inductive bias)。
归纳偏好的作用,要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线,显然,对于有限个样本组成的训练集,存在着很多条曲线与其一致。我们的学习算法必须有某种偏好,才能产出它认为”正确的”模型。
奥卡姆剃刀(Occam’s razor)
一种常用的、自然科学研究中最基本的原则,即若有多个假设与观察一致,则选最简单的那个。
NFL定理
为简单起见,假设样本空间 χ 和假设空间 H 都是离散的,令
P(h|X,Ea) 代表算法 Ea 基于训练数据 X 产生假设h的概率,再令f 代表我们希望学习的真实函数, Ea 的训练集外误差,即 Ea 在训练集之外的所有样本上的误差为:
Eote(Ea|X,f)=∑h∑x∈χ−XP(x)Ⅱ(h(x)≠f(x))P(h|X,Ea)
其中Ⅱ(.)是指示函数,若.为真是取1,否则取0.
若 f 均匀分布,则有一半的f 对 x 的预测与h(x) 不一致。
Eote(Ea|X,f)=2|χ|−1∑x∈χ−XP(x)
总误差竟然与学习算法无关!对于任意两个学习算法 Ea 和 Eb ,我们都有
∑fEote(Ea|X,f)=∑fEote(Eb|X,f)
这就是”没有免费的午餐”定理(No free Lunch Theorem,简称NFL定理).
前提:所有问题出现的机会相同、或所有问题都同等重要。