- 分类问题简介
- 生成式分类器:建模联合概率分布 P ( x , y ) P(x, y) P(x,y),首先建模数据的条件分布 P ( x ∣ y ) P(x|y) P(x∣y)【利用高斯分布】,用贝叶斯定理来推导出后验概率 P ( y ∣ x ) P(y|x) P(y∣x)
分类问题与生成式分类器的逻辑梳理
1. 分类问题介绍
分类是机器学习中的一个基础问题,目标是将数据分配到预定义的类别(labels)中。给定一个输入 x x x(比如一张图片或一笔交易),我们希望预测它属于哪个类别 y y y(比如猫、狗,或正常交易、欺诈交易)。分类问题可以是二分类(两个类别)或者多分类(多个类别)。分类的核心是使用现有的标注数据来训练模型,并用这个模型预测新数据的类别。
举例:
在信用卡欺诈检测中,系统会根据交易的特征(如交易金额、时间等)来预测这笔交易是否是欺诈。
2. Generative Classifier(生成式分类器)
分类问题有两种常见的解决方法:生成式方法和判别式方法。生成式方法的关键在于建模联合概率分布 P ( x , y ) P(x, y) P(x,y),即同时描述输入数据 x x x 和标签 y y y 的概率。通过这种联合分布,我们可以用贝叶斯定理来推导出后验概率 P ( y ∣ x ) P(y|x) P(y∣x),从而做出分类决策。
生成式模型的步骤:
- 对每个类别 y y y,我们首先建模数据的条件分布 P ( x ∣ y ) P(x|y) P(x∣y),即在类别为 y y y 的条件下,数据 x x x 的分布。
- 利用贝叶斯定理计算后验概率 P ( y ∣ x ) P(y|x) P(y∣x),然后根据后验概率选择最可能的类别。
生成式模型的例子:
- 朴素贝叶斯分类器(Naive Bayes Classifier) 是一种典型的生成式分类器,它通过简单的独立假设来估计 P ( x ∣ y ) P(x|y) P(x∣y) 和 P ( y ) P(y) P(y),并利用贝叶斯定理进行分类。
3. Gaussian Distribution(高斯分布)
在生成式分类器中,如果特征是连续型的,通常选择高斯分布(也称正态分布)来建模 P ( x ∣ y ) P(x|y) P(x∣y)。高斯分布的选择有几个重要原因:
- 自然界中很多连续型数据(如身高、温度)符合或接近高斯分布。
- 高斯分布有良好的数学性质,特别是参数估计和推导过程简单。
- 通过均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2,我们可以方便地描述数据的分布形态。
高斯分布的公式:
对于一个均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2 的高斯分布,概率密度函数为:
P ( x ∣ μ , σ 2 ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 P(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} P(x∣μ,σ2)=2πσ21e−2σ2(x−μ)2
在生成式模型中,我们假设对于每个类别 y y y,特征 x x x 服从一个高斯分布。通过估计不同类别下的高斯分布参数 μ \mu μ 和 σ 2 \sigma^2 σ2,我们可以计算出给定类别 y y y 的条件概率 P ( x ∣ y ) P(x|y) P(x∣y)。
4. Bayes’ Rule(贝叶斯定理)
贝叶斯定理是生成式分类器中的核心工具,它用于计算后验概率 P ( y ∣ x ) P(y|x) P(y∣x),即在给定数据 x x x的情况下,类别 y y y 的概率。贝叶斯定理的公式为:
P ( y ∣ x ) = P ( x ∣ y ) P ( y ) P ( x ) P(y|x) = \frac{P(x|y) P(y)}{P(x)} P(y∣x)=P(x)P(x∣y)P(y)
其中:
- 后验概率 P ( y ∣ x ) P(y|x) P(y∣x)(Posterior):给定观测数据 x x x 后,类别 y y y 的概率。
- 似然函数 P ( x ∣ y ) P(x|y) P(x∣y)(Likelihood):在类别为 y y y 的情况下,观测到 x x x 的概率。
- 先验概率 P ( y ) P(y) P(y)(Prior):在没有观测数据时,类别 y y y 的初始概率。
- 证据项 P ( x ) P(x) P(x)(Evidence):观测到 x x x 的总概率。
贝叶斯定理通过结合先验概率和似然函数,帮助我们计算出后验概率,从而决定输入数据最可能属于哪个类别。
证据项的定义与作用
定义
证据项 P ( x ) P(x) P(x) 是贝叶斯定理中的归一化因子,确保计算出的后验概率 P ( y ∣ x ) P(y|x) P(y∣x) 是一个有效的概率分布。它表示在所有可能类别 y y y 下,观测到数据 x x x 的总概率。其公式为:
P ( x ) = ∑ y P ( x ∣ y ) P ( y ) P(x) = \sum_y P(x|y) P(y) P(x)=y∑P(x∣y)P(y)
作用
证据项是通过对所有可能的类别标签 y y y 进行边缘化得到的,它表示了观测到数据 x x x 的总可能性。证据项确保了贝叶斯定理中计算出的后验概率是合理的,并通过归一化让所有类别的后验概率之和为 1。
逻辑梳理总结
- 分类问题是通过已有数据来预测新数据的类别。
- 生成式分类器建模联合概率分布 P ( x , y ) P(x, y) P(x,y),从而推导后验概率 P ( y ∣ x ) P(y|x) P(y∣x)。
- 高斯分布常用于连续特征的建模,通过假设不同类别下的数据符合高斯分布,可以得到 P ( x ∣ y ) P(x|y) P(x∣y)。
- 贝叶斯定理通过结合先验概率和似然函数,帮助计算后验概率,从而实现分类决策。