【机器学习】基本概念

1. 基本术语

机器学习:是基于数据建立模型并运用模型对数据进行预测和分析的一门学科。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析和预测中。

特征/属性:反映事件或对象在某方面的表现或性质的事项。

样本:关于一个事件或对象的描述。

数据集:多条样本记录的集合。

输入空间/输出空间:输入和输出所有可能取值的集合。

学习/训练:从数据中学得模型的过程。

训练集/测试集:训练样本/测试样本组成的集合。

分类问题:输出变量为有限个离散变量的预测问题。

回归问题:输入变量和输出变量均为连续变量的预测问题。

标注问题:输入变量与输出变量均为变量序列的预测问题(常用在自然语言处理中)。

预测任务希望通过对训练集进行学习,建立一个从输入空间X到输出空间Y的映射f:X \mapsto Y.

假设:学得模型对应了关于数据的某种潜在规律,也称为“假设”。

版本空间:可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”。

2. 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称为“偏好”。“奥卡姆剃刀”(Occam's razor)是一种常用的、自然科学研究中最基本的原则来引导算法建立正确的偏好。即“若有多个假设与观察一致,则选最简单的那个”。然而奥卡姆剃刀并非唯一可行的原则,有些问题还是要借助其他机制才能解决。算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

3. 生成模型与判别模型

监督学习的任务就是学习一个模型,这个模型的一般形式为决策函数:

                                             Y = f\left( X \right)                   (1)

或者条件概率分布:

                                             P\left( {Y\left| X \right.} \right)                   (2)

监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别为生成模型(generative model)和判别模型(discriminative model)。

(1)生成方法

由数据学习得到联合概率分布P\left( {X,Y} \right),然后再求出条件概率分布P\left( {Y\left| X \right.} \right)作为预测模型,即生成模型:

                                             P\left( {Y\left| X \right.} \right) = \frac{​{P\left( {X,Y} \right)}}{​{P\left( X \right)}}                   (3)

生成模型表示了给定输入X产生输出Y的生成关系,因此这样的方法称为生成方法。典型的生成模型有朴素贝叶斯法和隐马尔可夫模型。

(2)判别方法

由数据直接学习决策函数f\left( X \right)或者条件概率分布P\left( {Y\left| X \right.} \right)作为预测模型,即判别模型。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机等。

参考文献:

1. 《机器学习》第一章绪论——周志华

2. 《统计学习方法》第一章统计学习方法概论——李航 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值