机器学习——绪论

机器学习——绪论@Wizza

什么是机器学习?

机器学习用于通过计算的手段,利用经验来改善系统自身的性能。
经验(以数据的形式存在)——算法——模型
选定算法,然后数据输入到算法中,从而产生出模型。

基本术语

机器学习中的基本概念可分为数据集属性/特征属性值属性空间特征向量
以西瓜的数据为例,
色泽=青绿,根蒂=蜷缩,敲声=浊响

  1. 数据集: 西瓜的集合构成了数据集;
  2. 属性/特征:色泽,根蒂,敲声为西瓜的属性或特征;
  3. 属性值: 青绿,蜷缩,浊响,对应的是每个属性的值;
  4. 属性空间: 属性张成的空间,假如把色泽、根蒂和敲声作为三个坐标轴,则这三个特征就构成了用于描述西瓜的三维空间;
  5. 特征向量: 由于空间中的每个点都对应一个坐标向量,则该坐标向量就可以称为一个特征向量,如(青绿,蜷缩,浊响)就是一个特征向量。

以数学的方式表达如下:
令D={x1,x2,…,xm}:称为包含m个式例的数据集,xi就表示一个西瓜
每个xi有d个属性构成,如西瓜,就是由3个属性构成
每个xi={xi1,xi2,…xid}:表明d维样本空间的一个向量,如(青绿,蜷缩,浊响)
xij表明第xi个西瓜的第j个特征的值

  1. 训练: 训练数据, 用于学习或者训练的数据,也称训练样本,训练集。
  2. 假设: 是假定训练数据中存在某种潜在的规律,这种加载规律在身称为真相真实
  3. 标记: 需要获得训练样本的结果信息,称为标记空间输出空间,以(xi,yi)表示,xi是示例,yi是xi的标记,yi组成的集合为标记空间。

机器学习的种类

1.预测
预测任务是通过对训练集{(x1,y1),…(xm,ym)}进行学习,建立一个从X空间达到Y空间的映射。
1)分类: 预测的结果是离散值,如好瓜、坏瓜。分类可以分为两分类和多分类。二分类:正类,反类。
2).回归: 预测的结果是连续值,如瓜的成熟度为0.95,0.37

2.聚类
将训练集中的数据分为若干组,每组称为一个簇。这样的学习过程有助于了解数据内在的规律,为数据分析建立基础。

3.监督学习和无监督学习
监督学习:训练样本有标记信息,如分类,回归
无监督学习:训练样本无标记信息,如聚类

值得注意的是,机器学习的目标是使得学的的模型能够很好的适用于”新样本“,该能力称为泛化能力,具有泛化能力的模型能够很好的适用于整个样本空间。

假设空间

  1. 假设空间是指对一个样本空间所有可能的组合。
  2. 可以有很多策略对这个假设空间进行搜索,例如自顶向下,从一般到特殊或自底向上,从特殊到一般,搜索过程中可能不断删除与正例不一致的假设、和与反例一致的假设,最终获得与训练集一致的假设,这就是我们学得的结果。

归纳偏好

  1. 通过学习得到的模型对应了假设空间中的一个假设。当学习所得到的版本空间,有三个与训练集一致的假设,但与他们所对应的模型在面临新样本时,却可能会产生不同的输出。
  2. 机器学习算法在学习过程中队某种类型的偏好,称为归纳偏好,简称为偏好。
  3. 任何一个有效的机器学习算法比有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设,而无法确定学习结果。如果没有偏好,对于一个新样本,将会认为在新训练集中是等效假设,学得的模型时而结果是1,时而结果是0,将没有意义。
  4. 归纳偏好是解决 ”什么样的模型更好“ 的问题

    对于不同的问题,所选用的模型是不同的,这就是模型的偏好特性,有些模型偏好一般性原则,有些则偏好特殊性原则。假如所有问题出现的机会相同、或所有问题同等重要,考虑所有潜在的问题,则无论采用什么算法,它们的期望性能是相同的。
    因此要谈论算法的相对优劣,必须要针对具体的学习问题,学习算法自身的归纳偏好于问题是否相配,往往会起到决定性的作用。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值