机器学习——绪论@Wizza
什么是机器学习?
机器学习用于通过计算的手段,利用经验来改善系统自身的性能。
经验(以数据的形式存在)——算法——模型
选定算法,然后数据输入到算法中,从而产生出模型。
基本术语
机器学习中的基本概念可分为数据集,属性/特征,属性值,属性空间,特征向量。
以西瓜的数据为例,
色泽=青绿,根蒂=蜷缩,敲声=浊响
- 数据集: 西瓜的集合构成了数据集;
- 属性/特征:色泽,根蒂,敲声为西瓜的属性或特征;
- 属性值: 青绿,蜷缩,浊响,对应的是每个属性的值;
- 属性空间: 属性张成的空间,假如把色泽、根蒂和敲声作为三个坐标轴,则这三个特征就构成了用于描述西瓜的三维空间;
- 特征向量: 由于空间中的每个点都对应一个坐标向量,则该坐标向量就可以称为一个特征向量,如(青绿,蜷缩,浊响)就是一个特征向量。
以数学的方式表达如下:
令D={x1,x2,…,xm}:称为包含m个式例的数据集,xi就表示一个西瓜
每个xi有d个属性构成,如西瓜,就是由3个属性构成
每个xi={xi1,xi2,…xid}:表明d维样本空间的一个向量,如(青绿,蜷缩,浊响)
xij表明第xi个西瓜的第j个特征的值
- 训练: 训练数据, 用于学习或者训练的数据,也称训练样本,训练集。
- 假设: 是假定训练数据中存在某种潜在的规律,这种加载规律在身称为真相或真实。
- 标记: 需要获得训练样本的结果信息,称为标记空间或输出空间,以(xi,yi)表示,xi是示例,yi是xi的标记,yi组成的集合为标记空间。
机器学习的种类
1.预测
预测任务是通过对训练集{(x1,y1),…(xm,ym)}进行学习,建立一个从X空间达到Y空间的映射。
1)分类: 预测的结果是离散值,如好瓜、坏瓜。分类可以分为两分类和多分类。二分类:正类,反类。
2).回归: 预测的结果是连续值,如瓜的成熟度为0.95,0.37
2.聚类
将训练集中的数据分为若干组,每组称为一个簇。这样的学习过程有助于了解数据内在的规律,为数据分析建立基础。
3.监督学习和无监督学习
监督学习:训练样本有标记信息,如分类,回归
无监督学习:训练样本无标记信息,如聚类
值得注意的是,机器学习的目标是使得学的的模型能够很好的适用于”新样本“,该能力称为泛化能力,具有泛化能力的模型能够很好的适用于整个样本空间。
假设空间
- 假设空间是指对一个样本空间所有可能的组合。
- 可以有很多策略对这个假设空间进行搜索,例如自顶向下,从一般到特殊或自底向上,从特殊到一般,搜索过程中可能不断删除与正例不一致的假设、和与反例一致的假设,最终获得与训练集一致的假设,这就是我们学得的结果。
归纳偏好
- 通过学习得到的模型对应了假设空间中的一个假设。当学习所得到的版本空间,有三个与训练集一致的假设,但与他们所对应的模型在面临新样本时,却可能会产生不同的输出。
- 机器学习算法在学习过程中队某种类型的偏好,称为归纳偏好,简称为偏好。
- 任何一个有效的机器学习算法比有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设,而无法确定学习结果。如果没有偏好,对于一个新样本,将会认为在新训练集中是等效假设,学得的模型时而结果是1,时而结果是0,将没有意义。
- 归纳偏好是解决 ”什么样的模型更好“ 的问题
对于不同的问题,所选用的模型是不同的,这就是模型的偏好特性,有些模型偏好一般性原则,有些则偏好特殊性原则。假如所有问题出现的机会相同、或所有问题同等重要,考虑所有潜在的问题,则无论采用什么算法,它们的期望性能是相同的。
因此要谈论算法的相对优劣,必须要针对具体的学习问题,学习算法自身的归纳偏好于问题是否相配,往往会起到决定性的作用。