数据分布类型及处理方式

bulingg

已于 2024-01-16 15:21:59 修改

阅读量329

点赞数

分类专栏：机器学习文章标签：概率论

于 2023-11-03 12:51:35 首次发布

本文链接：https://blog.csdn.net/bulling/article/details/134145623

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

概率分布

数据类型
- 期望和方差性质
数据分布类型
分布之间关系

数据类型

离散型数据：固定取值，值的数量是有限的
随机变量 $X$ 的分布律为： $P(X=x_{i})=p_{i},i=1,2,\cdots$ ,期望和方差如下
$E(x)=\sum_{i}x_{i}p_{i},D(x)=\sum_{i}(x_{i}-E(x))^{2}p_{i}$
连续性数据：在给定范围内有无数取值
$E(x)=\int_{a}^{b} xf(x)dx,D(x)=\int_{a}^{b}(x-E(x))^{2}f(x)dx$
其中， $f (x)$ 表示随机变量的概率密度函数
期望和方差的关系：（ $E (x)$ 为常数，则 $E [E (x)] = E (x)$ ）
$D(x)=E([x-E(x)]^{2})=E\big(x^{2}-2xE(x)+E(x)^{2}\big)=E(x^{2})-2[E(x)]^{2}+[E(x)]^{2}=E(x^{2})-[E(x)]^{2}$

期望和方差性质

期望：
来量化一个随机变量可能的平均水平。在实际应用中，期望常常被用来预测未来可能发生的平均情况

设 $C$ 是常数，则有 $E (C) = C$
设 $X$ 是一个随机变量， $C$ 是常数，则有 $E (CX) = CE (X)$
设 $X, Y$ 是两个随机变量，则有 $E (X + Y) = E (X) + E (Y)$
设 $X, Y$ 是相互独立的随机变量，则有 $E (X Y) = E (X) E (Y)$

方差：
用来衡量随机变量或一组数据离散程度的度量。在实际应用中，方差常常被用来描述数据的波动性

设 $C$ 是常数，则 $D (C) = 0$
设 $X$ 是随机变量， $C$ 是常数，则有 $D(CX)=C^{2}D(X),D(X+C)=D(X)$
设 $X, Y$ 是两个随机变量，则有 $D(X+Y)=E([(X+Y)-E(X+Y)]^{2})=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))]$ ，特别，若 $X, Y$ 相互独立，则有 $D (X + Y) = D (X) + D (Y)$
$D (X)$ 的充要条件是 $X$ 以概率 1 取常数 $E (X)$ ，即 $P\{X=E(X)\}=1$

数据分布类型

正态分布

正态分布，也称为高斯分布，是一种在数学、物理及工程等领域都非常重要的概率分布。在统计学中，正态分布的数据形态呈现为钟型，两头低，中间高，左右对称。
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-u)^{2}}{2\sigma^{2}}},-\infty < x < \infty$
$E(X)=\mu,D(x)=\sigma^{2},X\sim N(\mu,\sigma)$

标准正态分布的均值为 $0$ ,方差为 $1$ ，密度为 $f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}}$

处理方法：正态分布是许多统计模型的基础，如果数据不符合正态分布，可以通过对数变换、平方根变换等方法尝试将其转化为正态分布。
在这里插入图片描述

均匀分布

均匀分布是最简单的概率分布，它的所有值在相同长度的间隔内出现的概率是相等的。
$f(x)=\frac{1}{b-a}$
$E(x)=\int_{a}^{b}xf(x)dx=\int_{a}^{b}\frac{x}{b-a}dx=\frac{a+b}{2}$
$D(x)=\int_{a}^{b}(x-E(x))^{2}f(x)dx$
处理方法：均匀分布通常不需要特殊处理，但如果需要，可以通过分箱、离散化等方法进行处理。

二项分布

二项分布是一种离散概率分布。它描述了在一系列独立的是/非试验中成功的次数的概率分布，其中每次试验的成功概率为p。
重复 $n$ 次实验，每次实验都是独立的，实验成功 $x$ 的概率为
$p(x)=C_{n}^{x}p^{x}(1-p)^{n-x}=\frac{n!}{(n-x)!x!}p^{x}(1-p)^{n-x}$
$E (x) = n p, D (x) = n p (1 - p)$
处理方法：二项分布通常用于分类问题中，可以通过逻辑回归、决策树等模型进行处理。
$p! = 0.5$ 时：
在这里插入图片描述
$p = 0.5$ 时：

泊松分布

泊松分布是一种离散概率分布，描述了在固定时间或空间内发生的事件的次数的概率分布。

任何成功的事件都不应该影响另一个成功事件的结果。
在较短的时间间隔内成功的概率必须等于在较长的时间间隔内成功的概率。
随着间隔变小，间隔内成功的概率接近零
$P(X=x)=e^{-u\frac{\mu^{x}}{x!}},x=0,1,2,\cdots$
$E(x)=\mu,D(x)=\mu$
其中，

$\mu$ 表示时间 $t$ 内事件发生的平均次数， $\mu=\lambda t$ ,
$\lambda$ 表示时间发生的速率，
$t$ 表示时间间隔长度
$X$ 表示时间间隔 $t$ 内时间发生的次数
处理方法：泊松分布通常用于计数数据的模型，如泊松回归。

指数分布

指数分布是一种连续概率分布，可以用来表示独立随机事件发生的时间间隔。
$f(x)=\lambda e^{\lambda x},x\ge 0$
$E(x)=\frac{1}{\lambda},D(x)=\frac{1}{\lambda^{x}}$
其中， $\lambda$ 表示速率，速率越大，曲线下降越快，速率越低，曲线越平滑
在这里插入图片描述