7.1 贝叶斯决策论(Bayesian decision theory)
-
贝叶斯最优分类器
-
贝叶斯风险
-
判别式 vs. 生成式
-
判别式(discriminative)模型
- 思路:直接对 P(c | x) 建模
- 代表
- 决策树
- BP 神经网络
- SVM
-
生成式(generative)模型
-
思路
-
先对联合概率分布 P(x, c) 建模,再由此获得 P(c | x)
-
P ( c ∣ x ) = P ( x , c ) P ( x ) P(c | x) = \frac{P(x,c)}{P(x)} P(c∣x)=P(x)P(x,c)
-
-
代表:贝叶斯分类器
-
-
注意:贝叶斯分类器 ≠ 贝叶斯学习
-
贝叶斯定理
-
P ( c ∣ x ) = P ( x , c ) P ( x ) P(c|x) = \frac{P(x,c)}{P(x)} P(c∣x)=P(x)P(x,c)
-
根据
贝叶斯定理
,有 -
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P ( c ) : p r i o r 先 验 概 率 , 即 样 本 空 间 中 各 类 样 本 所 占 的 比 例 , 可 通 过 各 类 样 本 出 现 的 频 率 估 计 ( 大 数 定 律 ) P ( c ∣ x ) : 后 验 概 率 P ( x ) : e v i d e n c e 证 据 P ( x ∣ c ) : 类 条 件 概 率 , 亦 称 l i k e l i h o o d 似 然 , 即 这 个 类 别 出 现 的 概 率 P(c|x) = \frac{P(c)P(x|c)}{P(x)}\\ P(c):prior先验概率,即样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律)\\ P(c|x):后验概率\\ P(x):evidence证据\\ P(x|c):类条件概率,亦称likelihood似然,即这个类别出现的概率 P(c∣x)=P(x)P(c)P(x∣c)P(c):prior先验概率,即样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律)P(c∣x):后验概率P(x):evidence证据P(x∣c):类条件概率,亦称likelihood似然,即这个类别出现的概率
-
-
7.2 极大似然估计
-
L L ( θ c ) = l o g P ( D c ∣ θ c ) = ∑ x ∈ D c l o g P ( x ∣ θ c ) LL(\theta_c) = log \ P(D_c | \theta _c)=\sum_{x \in D_c}log \ P(x | \theta _c) LL(θc)=log P(Dc∣θc)=x∈Dc∑log P(x∣θc)
-
为了求 θ
-
为什么要取 LL
- 因为每次概率 < 1,连乘,会变得很小,产生下溢,超过计算机计算精度,无法表示,所以用 log 求和
- 虽然极值不一样,但是极值点一样
- 单调函数,极值点一定相同
-
估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实分布
7.3 朴素贝叶斯分类器(naive Bayes classifier)
-
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x 1 , x 2 , … , x m ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P(c|x) = \frac{P(c)P(x|c)}{P(x)}= \frac{P(c)P(x_1,x_2,\dots ,x_m|c)}{P(x)}= \frac{P(c)}{P(x)}\prod_{i=1}^{d}{P(x_i|c)} P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)P(x1,x2,…,xm∣c)=P(x)P(c)i=1∏dP(xi∣c)
-
假定全部独立
-
存在问题:可能有一个类别在训练集中出现概率为 0,那么上式值为 0
-
解决方法:拉普拉斯修正(Laplacian correction)
- 对那些出现概率为 0 的,假设出现过一次(离散变量)
- 用概率密度替换,假设高斯分布(或者均一分布)(连续变量)
-
使用
- 若对预测速度要求高
- 预计算所有概率估值,使用时“查表”
- 若数据更替频繁
- 不进行任何训练,收到预测请求时再估值(懒惰学习,lazy learning)【例如:knn】
- 若数据不断增加
- 基于现有估值,对新样本涉及的概率估值进行修正(增量学习,incremental learning)
- 若对预测速度要求高
7.4 半朴素贝叶斯分类器(semi-naive Bayes classifier)
-
基本思路:适当考虑一部分属性间的相互依赖信息
-
最常用策略:独依赖估计(One-Dependent Estimator,ODE)
-
假设每个属性在类别之外最多仅依赖一个其他属性
P ( c ∣ x ) ∝ P ( c ) ∏ i = 1 d P ( x i ∣ c , p a i ) P(c|x) \propto P(c)\prod_{i=1}^{d}P(x_i|c,pa_i) P(c∣x)∝P(c)i=1∏dP(xi∣c,pai) -
关键是如何确定父属性
-
-
两种常见方法
- SPODE(super-Parent ODE)
- 假设所有属性都依赖于同一属性,称为“超父”(Super-Parent),然后通过交叉验证等模型选择方法来确定超父属性
- TAN(Tree Augmented naive Bayes)
- 以属性间的条件“互信息”(mutual information)为边的权重,构建完全图,再利用最大带权生成树算法,仅保留强相关属性间的依赖性
- SPODE(super-Parent ODE)
-
AODE(Averagod One-Dependent Estimator)
- 尝试将每个属性作为超父构建 SPODE
- 再做拉普拉斯修正
- 取平均
-
高阶依赖
-
ODE → kDE
-
明显障碍
-
随 着 k 增 加 , 估 计 P ( x i ∣ y , p a i ) 所 需 的 样 本 数 将 以 指 数 级 增 加 随着 k 增加,估计P(x_i|y,pa_i)所需的样本数将以指数级增加 随着k增加,估计P(xi∣y,pai)所需的样本数将以指数级增加
- 训练样本非常充分 → 性能可能提升
- 有限训练样本 → 高阶联合概率估计困难
-
-
7.5 贝叶斯网(Bayesian network;Bayes network)
-
亦称“信念网”(belief network)
-
是有向无环图
-
从独立根节点开始写
-
P ( x 1 , x 2 , … , x d ) = ∏ i = 1 d P B ( x i ∣ π i ) = ∏ i = 1 d θ x i ∣ π i P(x_1,x_2,\dots ,x_d)=\prod _{i=1}^{d}P_B(x_i|\pi _i) = \prod _{i=1}^{d}{ \theta _{x_{i}| \pi _i}} P(x1,x2,…,xd)=i=1∏dPB(xi∣πi)=i=1∏dθxi∣πi
-
典型依赖关系
- 同父结构:条件独立性,given 就会独立,不 given 反而不会独立
- V 型结构:边际独立性,given 不独立,不 given 反而独立【学生智商是x1,考试难度是x2】
- 顺序结构:条件独立性,given 就会独立,不 given 反而不会独立
-
分析条件独立性
- 有向分离(D-separation)
- 先将有向图转变为无向图
- V 型结构父节点相连
- 有向边变成无向边
- 先将有向图转变为无向图
- 有向分离(D-separation)
-
结构学习
-
评分函数(score function):评估贝叶斯网与训练数据的契合程度
-
最小描述长度(MDL,Minimal Description Length)
-
赤池线性准则
- s ( B ∣ D ) = f ( θ ) ∣ B ∣ − L L ( B ∣ D ) 越 小 越 好 ∣ B ∣ : 贝 叶 斯 网 的 参 数 个 数 f ( θ ) : 表 示 描 述 每 个 参 数 θ 所 需 的 字 节 数 A I C : f ( θ ) = 1 B I C : f ( θ ) = 1 2 l o g m s(B|D) = f(\theta)|B| - LL(B|D) \ 越小越好\\ |B|:贝叶斯网的参数个数\\ f(\theta):表示描述每个参数 \theta 所需的字节数\\ AIC:f(\theta) = 1\\ BIC:f(\theta) = \frac{1}{2}log\ m s(B∣D)=f(θ)∣B∣−LL(B∣D) 越小越好∣B∣:贝叶斯网的参数个数f(θ):表示描述每个参数θ所需的字节数AIC:f(θ)=1BIC:f(θ)=21log m
-
搜索最优贝叶斯网络结构是NP难问题
-
-
推断(inference):基于已知属性变量的观测值,推断其他属性变量的取值
- 已知属性变量的观测值:evidence证据
- 精确推断:直接根据贝叶斯网定义的联合概率分布来精确计算后验概率
- 近似推断:降低精度要求,在有限时间内求得近似解
- 常见做法
- 吉布斯采样(Gibbs sampling)
- 固定一个属性,求另一个属性
- 变分推断(variational inference)
- 吉布斯采样(Gibbs sampling)
- 常见做法
-
蒙特卡洛:时间越长,越逼近要求
-
拉斯维加斯:不知道什么时候终止
7.6 EM算法(Expectation-Maximization)
- 未观测变量 → 隐变量(latent variable)
- 隐变量无法直接求解
- E步:当 θ 已知(初始化时随机定义参数) → 固定参数,求出隐变量Z【用猜的参数 θ ,来做分类,对每个样本 assign 一个标记】
- M步:当 Z 已知 → 对 θ 极大似然估计【再来更新 θ】
- 每一步 E步、M步,能保证 log likelihood 往上涨,渐进,一定会收敛,达到局部最优解, 但是不会终止。