Python小白进阶篇之概率论2

前言

今天开启第二天概率论的学习,从昨天随机变量的分布结尾,今天从连续性随机变量及其概率密度函数开始巩固。


一、连续性随机变量分布

连续型随机变量是取值可以是某个区间内任意实数的随机变量。与离散型随机变量不同,连续型随机变量的取值是连续的,不可数的。连续型随机变量的概率分布通常由概率密度函数(Probability Density Function, PDF)描述。

例子
统计了99年的降水量,其中

降水量在670-770的有1年(频率:0.01),

降水量在770-870的有8年(频率:0.081),

降水量在870-970的有9年,

降水量在970-1070的有19年,

降水量在1070-1170的有20年,

降水量在1170-1270的有18年,

降水量在1270-1370的有10年,

降水量在1370-1470的有7年,

降水量在1470-1570的有4年,

降水量在1570-1670的有3年。

频率密度直方图:(纵坐标为频率/组距)
在这里插入图片描述

连续型随机变量的特点:

  1. 连续性:随机变量的取值是连续的,可以在一个或多个区间内取任意值。
  2. 不可数性:取值是不可数的,即有无限多个可能的取值。
  3. 概率分布:每个取值区间都有一个特定的概率,且整个取值范围的概率密度函数积分等于1。
  4. 连续型的随机变量取值在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。
  5. 连续情况下,端点无所谓。P{a≤x≤b}=P{a<x<b}
    熟练掌握连续性随机变量分布的图像和特点为关键

概率密度函数

概率密度函数从图中我们可知就是作为那条曲线
对于一维实随机变量X,如果存在非负可积函数f(x),使得对于任意实数x
在这里插入图片描述
可得:
在这里插入图片描述
则称f(x)为随机变量X的概率密度函数。

密度函数f(x)具有下列性质

非负性:对于所有的x,有
在这里插入图片描述
同时也说明只要fx位于y轴的上半段就是符合自身性质,则表示概率密度函数可以位于第一象限和第二象限。
归一性:概率密度函数在整个取值范围的积分等于1,即
在这里插入图片描述
举个例子:
在这里插入图片描述
根据概率密度函数:
在这里插入图片描述可知,在[0,2]区间以外的函数值都为0,所以
在这里插入图片描述
计算定积分

在这里插入图片描述
由于
在这里插入图片描述
所以:2k+2=1
k=-0.5

二、分布函数

1.基本概念

分布函数是描述随机变量取值分布情况的函数,无论是离散型随机变量还是连续型随机变量,都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数(Cumulative Distribution Function, CDF),用 F(x) 表示。

2.累积分布函数(CDF)

对于随机变量 X,其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率:
在这里插入图片描述

3.CDF的性质

  1. 非减性:随着 x 的增加,F(x) 是非减的,即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。

  2. 范围:F(x)的值域在 0 到 1 之间,即 0≤F(x)≤1。

  3. 边界条件:

在这里插入图片描述
4.右连续:F(x) 在任意点 x 都是右连续的。对于离散型随机变量,F(x) 在任意点 x 是右连续,对于连续型随机变量,F(x) 在任意点 x 是连续的。
我的理解是对于任意一点x0,取任意x从右侧趋向于x0时,累积分布函数(CDF)F(x)的极限值F(x0+)等于F(x0),那么我们就说这个累积分布函数在x0点是右连续的。类似于在求极限中对于连续的定义,只是此处在x0的右侧进行延伸。

4.不同类型随机变量的累积分布函数

1.离散型随机变量
2.连续型随机变量
对于实质是:分布函数其实就是求曲线在某个区间内的面积。
此处需要注意的是随机变量中X比分布函数中的f(x)要更小,举例中主要注意X比x更小,还有就是通过概率分布表中的概率要相加完整。

5.常见的分布

有0-1分布、几何分布、二项分布、泊松分布、均匀分布、指数分布和正态分布,这几个分布里面常用和注意的我觉得是二项分布和正态分布,接下来的解析从这两个分布出发。

5.1二项式分布

二项分布的概率质量函数(PMF):
如果随机变量 X 表示 n 次伯努利试验中成功的次数,那么 X 服从参数为 n 和 p 的二项分布,记作 X∼B(n,p)。二项分布的概率质量函数为:
在这里插入图片描述
k作为成功的数,k=0,1,2,…,n
在这里插入图片描述

为组合数,表示从n次试验中选择k次成功的不同方式的数目。
在这里插入图片描述

  • p 是单次试验成功的概率。

  • 1−p 是单次试验失败的概率。

其实就是事件概率中的伯努利公式。

5.2 正态分布

正态分布(Normal Distribution),也称为高斯分布(Gaussian Distribution),是连续概率分布的一种。它是统计学中最重要的概率

分布之一,因为许多自然和社会现象的分布都近似于正态分布。正态分布在自然科学和社会科学的许多领域都有应用,包括生物学、物理

学、经济学和社会科学,记作:

在这里插入图片描述
概率密度函数:
在这里插入图片描述
其中x为随机变量、μ 是均值、σ是标准差、σ^2是方差。
跟后面的期望相结合更易理解。

离散型随机变量函数的分布

离散型随机变量函数的分布通常指的是如何从已知的离散型随机变量出发,通过某种函数关系得到新的随机变量,并确定这个新随机变量的概率分布。
课上有用的方法:
直接法:
对于每一个可能的 y 值,我们可以通过以下步骤计算 Y 取值为 y 的概率:

  1. 确定 x 的值:找出所有使得 g(x)=y 成立的 x 的值。
  2. 计算概率:对于每个满足条件的 x,将 X 取该值的概率相加。

连续型随机变量函数的分布

连续型随机变量函数的分布是指通过一个连续型随机变量 XX 的函数 Y=g(X)得到的新的随机变量 Y 的分布

期望与方差

1.数学期望

数学期望是概率论中的一个重要概念,它描述了一个随机变量的平均值或中心值。数学期望也被称为期望值或均值。它是对随机变量可能取值的加权平均,其中权重是每个可能取值的概率。

1.1 离散型随机变量的期望

在这里插入图片描述
如何理解离散型随机变量通过例子其实更加形象
1.有三个人的体重分别为150、165、180,求体重的期望值。
在这里插入图片描述
其实就是求平均体重。
2.学校举行歌唱比赛,假设给一个参赛选手打分,专业评委打分90,老师打分100,学生打分80,专业评委分数权重为0.9,老师权重为0.09,学生权重为0.01,求给该选手的打分期望值。
设随机变量X,其取值分别为打分值:90、100、80,对应的概率为打分权重:0.9、0.09、0.01
所以,X的期望值为:
在这里插入图片描述
通过以上两个例子较为形象具体举出离散型随机变量的期望计算。

1.2方差

方差分为离散性随机变量连续性随机变量
通过两个例子去理解
离散型随机变量在这里插入图片描述
求方差DX。

先求EX(期望值):
在这里插入图片描述
求平方的期望
在这里插入图片描述
离散型是取值乘以对应概率求和,平方的期望减去期望的平方
在这里插入图片描述
连续性随机变量*:
对于连续型随机变量 XX,其方差可以表示为:
假设密度函数:
在这里插入图片描述
求方差DX。

解:
求EX:
在这里插入图片描述
最后还是通过平方的期望减掉期望的平方。

1.3协方差

概念:协方差是衡量两个随机变量之间线性关系强度的统计量。如果两个变量的协方差为正,它们之间存在正相关关系;如果协方差为负,它们之间存在负相关关系;如果协方差为零,它们之间没有线性关系。
定义:对于两个随机变量 X 和 Y,它们的协方差定义为:
在这里插入图片描述
其中 EX 和 EY 分别是 X 和 Y 的期望值。

协方差的计算公式可以表示为:
在这里插入图片描述

1.4正态分布

在这里插入图片描述
期望与方差:
在这里插入图片描述
这是概率中作为我们常为使用的公式和重点,熟悉每个概念指的是什么。

Python是数据科学和机器学习领域中非常流行的语言,其中有许多强大的库支持概率论和统计模型的实现。其中两个核心库是NumPy和SciPy,它们提供了大量的数学函数和算法,而更高级的库如Pandas用于数据处理,matplotlib和seaborn则用于数据可视化。 在概率论方面,你可以使用: 1. `numpy.random`模块:提供了各种随机数生成器,如均匀分布、正态分布等。 2. `scipy.stats`模块:包含许多概率分布和统计测试函数,比如计算累积分布函数(CDF)、概率密度函数(PDF)或进行假设检验。 3. `statsmodels`库:提供更高级的统计模型,如线性回归、时间序列分析、以及各种假设检验。 在统计模型方面,有: 1. `sklearn`(scikit-learn):这是机器学习的基础库,包含了诸如线性回归、决策树、聚类算法、分类器等常用统计模型。 2. `pandas`的数据框结构非常适合数据探索和预处理,这对于构建统计模型至关重要。 3. `pyMC3`和`Stan`:用于构建和估计贝叶斯模型的库,支持概率编程。 4. `TensorFlow Probability`或`Edward`:如果你需要在深度学习背景下使用概率模型,这些库提供了概率图模型和自动概率编程功能。 如果你对某个特定的统计模型或概率方法感兴趣,例如贝叶斯网络、马尔可夫链蒙特卡洛(MCMC)或时间序列分析,请告诉我,我可以为你提供更详细的介绍和代码示例。另外,还有许多用于机器学习的高级库,如`Keras`和`TensorFlow`,它们也支持概率相关的组件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值