本书的使用:
[来源于周志华老师的讲解]
第1章-绪论
计算学习理论
概率近似正确 模型:PAC (Probably Approximate Correct)
公式:
其中 f 表示模型,y表示真相,x为样本
公式分析:
其中用于计算模型的误差,判断模型的优劣
由于模型基于不同的算法和数据是不唯一的
故用 表示取得该模型的概率
故当 δ=0,ε=0 时,即表示每次都取到最优解的模型
这时就出现了P=NP的问题
只要我们相信P≠NP,那么就不可能每次都取到最优模型
P=NP问题是计算机科学中的一个著名未解之谜,它询问的是两个问题类别——P类问题和NP类问题——是否相等。P类问题是指那些可以被快速解决的计算问题,即存在一个多项式时间算法来解决这些问题。NP类问题则是指那些虽然可能很难快速解决,但如果给出一个解决方案,我们可以快速验证这个解决方案是否正确的问题。
简单来说,P=NP问题问的是:所有可以快速验证答案的问题,是否都可以快速解决?
术语名词
1.示例 = 特征向量,样本
-
名词解释:
即对某个事件或者对象的 全局 描述
-
构成元素:
多组(特征:特征值)
-
样本 要根据上下文来判断含义
2.特征 = 属性
-
名词解释:
即对某个事件或对象的一个 具体 特征的描述
3.样本空间 = 属性空间 = 输入空间
-
名词解释:
即特征张成的空间,空间中每个点对应一个特征向量即样本
4.数据集,训练集,测试集
-
数据集=训练集+测试集(一般二八分,训练集更多)
数据集一般这样表示:
由m个样本X构成,每个样本有相同的d个特征,即样本的维数为d
5.样例,标记,标记空间
-
样例=样本+标记
标记:即想预测的结果的 实际信息,比如想预测瓜的好坏,实际样本中的信息为"好瓜"/"坏瓜",
一般这样表示:
标记空间 or 输出空间:所有标记的集合
6.假设空间,版本空间
假设:学得模型关于数据的潜在规律 真实or真相:潜在规律本身
假设空间:所有假设构成的集合 版本空间:与训练集一致的假设构成的集合,由一个或多个假设空间的子集构成
......
基本假设
我们知道训练出的模型是为了对未知数据进行结果预测
但是为什么模型可以对未知数据进行预测呢?
这里我们引出了机器学习的基本假设。
1.未知分布D
通常假设样本空间中全体样本服从一个未知“分布” D
此处的“分布”指的是概率论中的概率分布
我们假设数据(包括 源数据集 和 未知数据)背后满足某种规律,
即数据的采样来自一个未知的、潜在的 分布D
2.独立同分布(i.i.d)
我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(简称i.i.d)
或者说 所有样本都是独立同分布的
一般而言,训练样本越多,我们得到的关于D的信息也越多
3.一些思考
在现实生活中,大多数样本之间不是独立同分布的,而是相互影响的。
比如说:在淘宝上 买衣服的人 和 买裤子的人,它们之间可能来自不同的分布,可能买衣服的人推荐买裤子的人来淘宝购物。
所以现在在机器学习的前沿领域,
如何突破独立同分布的限制 是一个重大课题
归纳偏好
归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设
对假设空间 筛选 后所得到的 版本空间中 可能有多个假设 这些假设都能够匹配训练集中的训练样本
而如何对版本空间中的假设进行选择呢?🤔
这里引入一个原则or方法论:
奥卡姆剃刀:
若非必要勿增实体
选取多个假设中最简单的。
但是其实感觉没啥用,因为”简单“的定义难以量化。
一个“随机乱猜”的算法有可能优于精心选择的算法
“没有免费的午餐”(NFL)定理:
任意算法的“训练集外误差”相等,即不同算法的误差期望相同,无绝对意义上的更优算法。
所以 不能摆脱具体问题 谈论算法的优劣
实际上:还是看测试集再模型上的效果,以及结合特定领域的需求对模型进行选择
机器学习分类
1.监督学习-有导师学习
样本有标记
1.1 分类问题-预测 离散值
-
二分类-正类/负类(反类)
一般取值0/1,文本可通过 特征工程 转换为数值型变量
一般假设正类和负类是可交换的
-
多分类
涉及 多类别 的预测输出
可以转换成二分类问题
1.2 回归问题-预测 连续值
预测结果 ∈ R
2.非监督学习-无导师学习
样本无标记
2.1 聚类算法
-
离散型变量的分类、分组别
-
连续型变量的统计个数,进行密度估计
了解数据内在规律
2.2 降维算法
-
如PCA主成分分析
......
机器学习的发展
-
符号主义:源于数学逻辑,产生明确的概念表示
符号主义认为人工智能源于数理逻辑后来又发展了 启发式算法>专家系统>知识工程理论与技术
主要方向:决策树 和 基于逻辑的学习
决策树->模拟人类对概念的判定树形过程 基于逻辑的学习-->典型代表:归纳逻辑程序设计(ILP)
-
连接主义:基于神经网络
算法复杂度高,假设空间大,且参数设置缺乏理论指导
经典代表:BP反向传播算法
-
统计学习:支持向量机(SVM),核方法
与连接主义关系密切
-
深度学习:早期连接主义的衍生,基于神经网络,现阶段很流行