【机器学习】绪论

HP-Patience

已于 2024-07-06 19:21:11 修改

阅读量1.1k

点赞数 17

分类专栏：机器学习-西瓜书-学习笔记文章标签：机器学习人工智能

于 2024-05-17 15:31:47 首次发布

本文链接：https://blog.csdn.net/2301_82023330/article/details/139006037

版权

机器学习-西瓜书-学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本书的使用：

[来源于周志华老师的讲解]

第1章-绪论

计算学习理论

概率近似正确 模型：PAC (Probably Approximate Correct)

公式： $P ( | f ( x ) - y | \leq \epsilon ) \geq 1 - \delta$

其中 f 表示模型，y表示真相，x为样本

公式分析：

其中 $| f ( x ) - y | \leq \epsilon$ 用于计算模型的误差，判断模型的优劣

由于模型基于不同的算法和数据是不唯一的

故用 $P ( ...... ) \geq 1 - \delta$ 表示取得该模型的概率

故当 δ=0，ε=0 时，即表示每次都取到最优解的模型

这时就出现了P=NP的问题

只要我们相信P≠NP，那么就不可能每次都取到最优模型

P=NP问题是计算机科学中的一个著名未解之谜，它询问的是两个问题类别——P类问题和NP类问题——是否相等。P类问题是指那些可以被快速解决的计算问题，即存在一个多项式时间算法来解决这些问题。NP类问题则是指那些虽然可能很难快速解决，但如果给出一个解决方案，我们可以快速验证这个解决方案是否正确的问题。

简单来说，P=NP问题问的是：所有可以快速验证答案的问题，是否都可以快速解决？

术语名词

1.示例 = 特征向量，样本

名词解释:即对某个事件或者对象的全局描述
构成元素:多组(特征:特征值)
样本要根据上下文来判断含义

2.特征 = 属性

名词解释：即对某个事件或对象的一个具体特征的描述

3.样本空间 = 属性空间 = 输入空间

名词解释：即特征张成的空间，空间中每个点对应一个特征向量即样本

4.数据集，训练集，测试集

数据集=训练集+测试集（一般二八分，训练集更多）

数据集一般这样表示：

$D =\left\{x_{ 1 },x_{2},\ldots,x_{ m }\right\}$

由m个样本X构成，每个样本有相同的d个特征，即样本的维数为d

5.样例，标记，标记空间

样例=样本+标记

标记：即想预测的结果的实际信息，比如想预测瓜的好坏，实际样本中的信息为"好瓜"/"坏瓜"，

一般这样表示： $( x _ { i } , y _ { i } )$

标记空间 or 输出空间：所有标记的集合

6.假设空间，版本空间

假设：学得模型关于数据的潜在规律

真实or真相：潜在规律本身

假设空间：所有假设构成的集合

版本空间：与训练集一致的假设构成的集合，由一个或多个假设空间的子集构成

......

基本假设

我们知道训练出的模型是为了对未知数据进行结果预测

但是为什么模型可以对未知数据进行预测呢？

这里我们引出了机器学习的基本假设。

1.未知分布D

通常假设样本空间中全体样本服从一个未知“分布” D

此处的“分布”指的是概率论中的概率分布

我们假设数据（包括源数据集和未知数据）背后满足某种规律，

即数据的采样来自一个未知的、潜在的分布D

2.独立同分布（i.i.d）

我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”（简称i.i.d）

或者说所有样本都是独立同分布的

一般而言，训练样本越多，我们得到的关于D的信息也越多

3.一些思考

在现实生活中，大多数样本之间不是独立同分布的，而是相互影响的。

比如说：在淘宝上买衣服的人和买裤子的人，它们之间可能来自不同的分布，可能买衣服的人推荐买裤子的人来淘宝购物。

所以现在在机器学习的前沿领域，

如何突破独立同分布的限制 是一个重大课题

归纳偏好

归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设

对假设空间筛选后所得到的版本空间中可能有多个假设这些假设都能够匹配训练集中的训练样本

而如何对版本空间中的假设进行选择呢？🤔

这里引入一个原则or方法论：

奥卡姆剃刀：

若非必要勿增实体

选取多个假设中最简单的。

但是其实感觉没啥用，因为”简单“的定义难以量化。

一个“随机乱猜”的算法有可能优于精心选择的算法

“没有免费的午餐”（NFL）定理：

任意算法的“训练集外误差”相等，即不同算法的误差期望相同，无绝对意义上的更优算法。

所以 不能摆脱具体问题 谈论算法的优劣

实际上：还是看测试集再模型上的效果，以及结合特定领域的需求对模型进行选择

机器学习分类

1.监督学习-有导师学习

样本有标记

1.1 分类问题-预测 离散值

二分类-正类/负类(反类)

一般取值0/1，文本可通过特征工程转换为数值型变量

一般假设正类和负类是可交换的
多分类 涉及多类别的预测输出

可以转换成二分类问题

1.2 回归问题-预测 连续值

预测结果 ∈ R

2.非监督学习-无导师学习

样本无标记

2.1 聚类算法

离散型变量的分类、分组别
连续型变量的统计个数，进行密度估计

了解数据内在规律

2.2 降维算法

如PCA主成分分析

......

机器学习的发展

符号主义：源于数学逻辑，产生明确的概念表示

符号主义认为人工智能源于数理逻辑后来又发展了启发式算法>专家系统>知识工程理论与技术

主要方向：决策树和基于逻辑的学习
```
决策树->模拟人类对概念的判定树形过程

基于逻辑的学习-->典型代表：归纳逻辑程序设计(ILP)
```
连接主义：基于神经网络

算法复杂度高，假设空间大，且参数设置缺乏理论指导

经典代表：BP反向传播算法
统计学习：支持向量机(SVM)，核方法

与连接主义关系密切
深度学习：早期连接主义的衍生，基于神经网络，现阶段很流行