【机器学习】基本概念

邓坤元

于 2018-10-30 21:44:42 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习机器学习进阶之路文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pxhdky/article/details/83420110

版权

机器学习同时被 2 个专栏收录

29 篇文章

订阅专栏

机器学习进阶之路

26 篇文章

订阅专栏

1. 基本术语

机器学习：是基于数据建立模型并运用模型对数据进行预测和分析的一门学科。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析和预测中。

特征/属性：反映事件或对象在某方面的表现或性质的事项。

样本：关于一个事件或对象的描述。

数据集：多条样本记录的集合。

输入空间/输出空间：输入和输出所有可能取值的集合。

学习/训练：从数据中学得模型的过程。

训练集/测试集：训练样本/测试样本组成的集合。

分类问题：输出变量为有限个离散变量的预测问题。

回归问题：输入变量和输出变量均为连续变量的预测问题。

标注问题：输入变量与输出变量均为变量序列的预测问题（常用在自然语言处理中）。

预测任务希望通过对训练集进行学习，建立一个从输入空间到输出空间的映射 $f:X \mapsto Y$ .

假设：学得模型对应了关于数据的某种潜在规律，也称为“假设”。

版本空间：可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”，称为“版本空间”。

2. 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”，或简称为“偏好”。“奥卡姆剃刀”（Occam's razor）是一种常用的、自然科学研究中最基本的原则来引导算法建立正确的偏好。即“若有多个假设与观察一致，则选最简单的那个”。然而奥卡姆剃刀并非唯一可行的原则，有些问题还是要借助其他机制才能解决。算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

3. 生成模型与判别模型

监督学习的任务就是学习一个模型，这个模型的一般形式为决策函数：

$Y = f\left( X \right)$ （1）

或者条件概率分布：

$P\left( {Y\left| X \right.} \right)$ （2）

监督学习方法又可以分为生成方法（generative approach）和判别方法（discriminative approach）。所学到的模型分别为生成模型（generative model）和判别模型（discriminative model）。

（1）生成方法

由数据学习得到联合概率分布 $P\left( {X,Y} \right)$ ，然后再求出条件概率分布 $P\left( {Y\left| X \right.} \right)$ 作为预测模型，即生成模型：

$P\left( {Y\left| X \right.} \right) = \frac{{P\left( {X,Y} \right)}}{{P\left( X \right)}}$ （3）

生成模型表示了给定输入产生输出的生成关系，因此这样的方法称为生成方法。典型的生成模型有朴素贝叶斯法和隐马尔可夫模型。

（2）判别方法

由数据直接学习决策函数 $f\left( X \right)$ 或者条件概率分布 $P\left( {Y\left| X \right.} \right)$ 作为预测模型，即判别模型。典型的判别模型包括：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机等。

参考文献：

1. 《机器学习》第一章绪论——周志华

2. 《统计学习方法》第一章统计学习方法概论——李航

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。