分类问题简单描述

苏西月

已于 2024-10-08 18:46:02 修改

阅读量702

点赞数 5

分类专栏： aml 文章标签：概率论机器学习人工智能

于 2024-09-23 03:59:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51011530/article/details/142447541

版权

aml 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

分类问题简介
生成式分类器：建模联合概率分布 $P (x, y)$ ，首先建模数据的条件分布 $P (x ∣ y)$ 【利用高斯分布】，用贝叶斯定理来推导出后验概率 $P (y ∣ x)$

分类问题与生成式分类器的逻辑梳理

1. 分类问题介绍

分类是机器学习中的一个基础问题，目标是将数据分配到预定义的类别（labels）中。给定一个输入 $x$ （比如一张图片或一笔交易），我们希望预测它属于哪个类别 $y$ （比如猫、狗，或正常交易、欺诈交易）。分类问题可以是二分类（两个类别）或者多分类（多个类别）。分类的核心是使用现有的标注数据来训练模型，并用这个模型预测新数据的类别。

举例：

在信用卡欺诈检测中，系统会根据交易的特征（如交易金额、时间等）来预测这笔交易是否是欺诈。

2. Generative Classifier（生成式分类器）

分类问题有两种常见的解决方法：生成式方法和判别式方法。生成式方法的关键在于建模联合概率分布 $P (x, y)$ ，即同时描述输入数据 $x$ 和标签 $y$ 的概率。通过这种联合分布，我们可以用贝叶斯定理来推导出后验概率 $P (y ∣ x)$ ，从而做出分类决策。

生成式模型的步骤：

对每个类别 $y$ ，我们首先建模数据的条件分布 $P (x ∣ y)$ ，即在类别为 $y$ 的条件下，数据 $x$ 的分布。
利用贝叶斯定理计算后验概率 $P (y ∣ x)$ ，然后根据后验概率选择最可能的类别。

生成式模型的例子：

朴素贝叶斯分类器（Naive Bayes Classifier） 是一种典型的生成式分类器，它通过简单的独立假设来估计 $P (x ∣ y)$ 和 $P (y)$ ，并利用贝叶斯定理进行分类。

3. Gaussian Distribution（高斯分布）

在生成式分类器中，如果特征是连续型的，通常选择高斯分布（也称正态分布）来建模 $P (x ∣ y)$ 。高斯分布的选择有几个重要原因：

自然界中很多连续型数据（如身高、温度）符合或接近高斯分布。
高斯分布有良好的数学性质，特别是参数估计和推导过程简单。
通过均值 $\mu$ 和方差 $\sigma^2$ ，我们可以方便地描述数据的分布形态。

高斯分布的公式：

对于一个均值为 $\mu$ ，方差为 $\sigma^2$ 的高斯分布，概率密度函数为：

$P(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$

在生成式模型中，我们假设对于每个类别 $y$ ，特征 $x$ 服从一个高斯分布。通过估计不同类别下的高斯分布参数 $\mu$ 和 $\sigma^2$ ，我们可以计算出给定类别 $y$ 的条件概率 $P (x ∣ y)$ 。

4. Bayes’ Rule（贝叶斯定理）

贝叶斯定理是生成式分类器中的核心工具，它用于计算后验概率 $P (y ∣ x)$ ，即在给定数据 $x$ 的情况下，类别 $y$ 的概率。贝叶斯定理的公式为：

$\frac{P(x|y) P(y)}{P(x)}$

其中：

后验概率 $P (y ∣ x)$ （Posterior）：给定观测数据 $x$ 后，类别 $y$ 的概率。
似然函数 $P (x ∣ y)$ （Likelihood）：在类别为 $y$ 的情况下，观测到 $x$ 的概率。
先验概率 $P (y)$ （Prior）：在没有观测数据时，类别 $y$ 的初始概率。
证据项 $P (x)$ （Evidence）：观测到 $x$ 的总概率。

贝叶斯定理通过结合先验概率和似然函数，帮助我们计算出后验概率，从而决定输入数据最可能属于哪个类别。

证据项的定义与作用

定义

证据项 $P (x)$ 是贝叶斯定理中的归一化因子，确保计算出的后验概率 $P (y ∣ x)$ 是一个有效的概率分布。它表示在所有可能类别 $y$ 下，观测到数据 $x$ 的总概率。其公式为：

$\sum_y P(x|y) P(y)$

作用

证据项是通过对所有可能的类别标签 $y$ 进行边缘化得到的，它表示了观测到数据 $x$ 的总可能性。证据项确保了贝叶斯定理中计算出的后验概率是合理的，并通过归一化让所有类别的后验概率之和为 1。

逻辑梳理总结

分类问题是通过已有数据来预测新数据的类别。
生成式分类器建模联合概率分布 $P (x, y)$ ，从而推导后验概率 $P (y ∣ x)$ 。
高斯分布常用于连续特征的建模，通过假设不同类别下的数据符合高斯分布，可以得到 $P (x ∣ y)$ 。
贝叶斯定理通过结合先验概率和似然函数，帮助计算后验概率，从而实现分类决策。

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。