机器学习——绪论

最新推荐文章于 2023-02-15 12:33:24 发布

wizzad

最新推荐文章于 2023-02-15 12:33:24 发布

阅读量353

点赞数

分类专栏：机器学习理论学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43243657/article/details/82782578

版权

理论学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

机器学习——绪论@Wizza

什么是机器学习？

机器学习用于通过计算的手段，利用经验来改善系统自身的性能。
经验（以数据的形式存在）——算法——模型
选定算法，然后数据输入到算法中，从而产生出模型。

基本术语

机器学习中的基本概念可分为数据集，属性/特征，属性值，属性空间，特征向量。
以西瓜的数据为例，
色泽=青绿，根蒂=蜷缩，敲声=浊响

数据集： 西瓜的集合构成了数据集；
属性/特征：色泽，根蒂，敲声为西瓜的属性或特征；
属性值： 青绿，蜷缩，浊响，对应的是每个属性的值；
属性空间： 属性张成的空间，假如把色泽、根蒂和敲声作为三个坐标轴，则这三个特征就构成了用于描述西瓜的三维空间；
特征向量： 由于空间中的每个点都对应一个坐标向量，则该坐标向量就可以称为一个特征向量，如（青绿，蜷缩，浊响）就是一个特征向量。

以数学的方式表达如下：
令D={x1,x2,…,xm}：称为包含m个式例的数据集，xi就表示一个西瓜
每个xi有d个属性构成，如西瓜，就是由3个属性构成
每个xi={xi1,xi2,…xid}：表明d维样本空间的一个向量，如（青绿，蜷缩，浊响）
xij表明第xi个西瓜的第j个特征的值

训练： 训练数据，用于学习或者训练的数据，也称训练样本，训练集。
假设： 是假定训练数据中存在某种潜在的规律，这种加载规律在身称为真相或真实。
标记： 需要获得训练样本的结果信息，称为标记空间或输出空间，以（xi,yi）表示，xi是示例，yi是xi的标记，yi组成的集合为标记空间。

机器学习的种类

1.预测
预测任务是通过对训练集{（x1,y1),…(xm,ym)}进行学习，建立一个从X空间达到Y空间的映射。
1）分类： 预测的结果是离散值，如好瓜、坏瓜。分类可以分为两分类和多分类。二分类：正类，反类。
2）.回归： 预测的结果是连续值，如瓜的成熟度为0.95,0.37

2.聚类
将训练集中的数据分为若干组，每组称为一个簇。这样的学习过程有助于了解数据内在的规律，为数据分析建立基础。

3.监督学习和无监督学习
监督学习：训练样本有标记信息，如分类，回归
无监督学习：训练样本无标记信息，如聚类

值得注意的是，机器学习的目标是使得学的的模型能够很好的适用于”新样本“，该能力称为泛化能力，具有泛化能力的模型能够很好的适用于整个样本空间。

假设空间

假设空间是指对一个样本空间所有可能的组合。
可以有很多策略对这个假设空间进行搜索，例如自顶向下，从一般到特殊或自底向上，从特殊到一般，搜索过程中可能不断删除与正例不一致的假设、和与反例一致的假设，最终获得与训练集一致的假设，这就是我们学得的结果。

归纳偏好

通过学习得到的模型对应了假设空间中的一个假设。当学习所得到的版本空间，有三个与训练集一致的假设，但与他们所对应的模型在面临新样本时，却可能会产生不同的输出。
机器学习算法在学习过程中队某种类型的偏好，称为归纳偏好，简称为偏好。
任何一个有效的机器学习算法比有其归纳偏好，否则它将被假设空间中看似在训练集上等效的假设，而无法确定学习结果。如果没有偏好，对于一个新样本，将会认为在新训练集中是等效假设，学得的模型时而结果是1，时而结果是0，将没有意义。
归纳偏好是解决 ”什么样的模型更好“ 的问题

对于不同的问题，所选用的模型是不同的，这就是模型的偏好特性，有些模型偏好一般性原则，有些则偏好特殊性原则。假如所有问题出现的机会相同、或所有问题同等重要，考虑所有潜在的问题，则无论采用什么算法，它们的期望性能是相同的。
因此要谈论算法的相对优劣，必须要针对具体的学习问题，学习算法自身的归纳偏好于问题是否相配，往往会起到决定性的作用。