资料补充
机器学习
就是机器完善模型的过程。
1.有监督的学习
2.无监督的学习
3.深度学习
信息=》Feature vector=》model=》ExpectedLavel
#一个划图像的代码
import numpy as np
import matplotlib.pyplot as plt
x=np.linspace(0.00001,3,100) #这个的意思开始的点为0.00001结束的点为3中间为100个点
y=x**x
plt.plot(x,y,"r-",linewidth=3)
plt.show()
#在0-1之间的图像
import numpy as np
import matplotlib.pyplot as plt
x=np.linspace(0,1,100)
y=x**x
plt.plot(x,y,"r-",linewidth=3)
plt.show()
ANACONDA的安装
SVD(奇异值分解)的原理与应用
##一些基本操作
import numpy as np
#产生一个从零到一的随机数
x=np.random.rand()
#产生一个列表 列表里面有十个列表,每个列表有从零到一的随机数
data=np.random.rand(10,2)
# #按行索引
# print(y,"\n索引值\n",y[[0,2]]) #拿出第一行和第三行数据
# #按列索引
# print(y,"\n索引值\n",y[:,0]) #拿出第一列的值
产生随机数并且做出图像
import numpy as np
import matplotlib.pyplot as plt
x=data[:,0]
y=data[:,1]
plt.plot(x,y,"go",linewidth=10)
print(x,y)
plt.show()
一千个样本的情况
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Kx2BB49z-1613566915305)(C:\Users\mzy\AppData\Roaming\Typora\typora-user-images\image-20210216235008187.png)]
产生从负一到正一的数值
import numpy as np
import matplotlib.pyplot as plt
#产生一个从零到一的随机数
x=np.random.rand()
#产生一个列表 列表里面有十个列表,每个列表有从零到一的随机数
data=2*np.random.rand(1000,2)-1
# #按行索引
# print(y,"\n索引值\n",y[[0,2]]) #拿出第一行和第三行数据
# #按列索引
# print(y,"\n索引值\n",y[:,0]) #拿出第一列的值
x=data[:,0]
y=data[:,1]
plt.plot(x,y,"go",linewidth=10)
print(x,y)
plt.show()
##这个跟c语言的rand()函数使用方法基本一样 可以按照rand()方法使用这个函数##
当索引值在一个单位圆内函数
import numpy as np
import matplotlib.pyplot as plt
#产生一个从零到一的随机数
#x=np.random.rand()
#产生一个列表 列表里面有十个列表,每个列表有从零到一的随机数
data=2*np.random.rand(10,2)-1
# #按行索引
# print(y,"\n索引值\n",y[[0,2]]) #拿出第一行和第三行数据
# #按列索引
# print(y,"\n索引值\n",y[:,0]) #拿出第一列的值
x=data[:,0]
y=data[:,1]
print(x)
print(y)
#这句语句是index为一个numpy.ndarray的类(这个类可以当成列表来看) 就是列表中每个元素x的平方和y的平方的满足的返回true否则返回false
#然后从这个列表中取每一个元素所对应的true和falset,true成立返回列表对应的原来的值 false不返回列表对饮的#值
index=x**2+y**2<1
print(index,type(index))
plt.plot(x[index],y[index],"go",linewidth=10)
print(x,y)
plt.show()
画一个圆环
import numpy as np
import matplotlib.pyplot as plt
#产生一个从零到一的随机数
#x=np.random.rand()
#产生一个列表 列表里面有十个列表,每个列表有从零到一的随机数
data=2*np.random.rand(10000,2)-1
# #按行索引
# print(y,"\n索引值\n",y[[0,2]]) #拿出第一行和第三行数据
# #按列索引
# print(y,"\n索引值\n",y[:,0]) #拿出第一列的值
x=data[:,0]
y=data[:,1]
print(x)
print(y)
#这句语句是index为一个numpy.ndarray的类(这个类可以当成列表来看) 就是列表中每个元素x的平方和y的平方的满足的返回true否则返回false
#然后从这个列表中取每一个元素所对应的true和falset,true成立返回列表对应的原来的值 false不返回列表对饮的值
#index=x**2+y**2<1 & ~(x**2+y**2<0.25) #这个式子等价于index=np.logical_and(index,~hole)
hole=x**2+y**2<0.25
#这里是np自己封装的一个逻辑和的式子 注意也可以用&表示和 |表示or “~“表示非
index=np.logical_and(index,~hole)
print(index,type(index))
plt.plot(x[index],y[index],"go",linewidth=10)
print(x,y)
plt.show()
补充:
Python随机数函数
随机数可以用于数学,游戏,安全等领域中,还经常被嵌入到算法中,用以提高算法效率,并提高程序的安全性。
Python包含以下常用随机数函数:
函数 | 描述 |
---|---|
choice(seq) | 从序列的元素中随机挑选一个元素,比如random.choice(range(10)),从0到9中随机挑选一个整数。 |
[randrange (start,] stop [,step]) | 从指定范围内,按指定基数递增的集合中获取一个随机数,基数默认值为 1 |
random() | 随机生成下一个实数,它在[0,1)范围内。 |
[seed(x]) | 改变随机数生成器的种子seed。如果你不了解其原理,你不必特别去设定seed,Python会帮你选择seed。 |
shuffle(lst) | 将序列的所有元素随机排序 |
uniform(x, y) | 随机生成下一个实数,它在[x,y]范围内。 |
set_printoptions函数详细分析
numpy.set_printoptions()函数
set_printoptions(precision=None, threshold=None, edgeitems=None,
linewidth=None,suppress=None, nanstr=None,
infstr=None, formatter=None, sign=None,
floatmode=None, **kwarg)
1234
precision
浮点数组输出的精度位数,即小数点后位数(默认为8)。
## precision:控制陣列內容微幅點數時的列印精度(小數位數)
np.set_printoptions(precision=1)
print("NumPy set_printoptions(precision=1)\n", np.linspace(3, 5, 10))
print()
np.set_printoptions(precision=3)
print("NumPy set_printoptions(precision=3)\n", np.linspace(3, 5, 10))
Output:
NumPy set_printoptions(precision=1)
[3. 3.2 3.4 3.7 3.9 4.1 4.3 4.6 4.8 5. ]
NumPy set_printoptions(precision=3)
[3. 3.222 3.444 3.667 3.889 4.111 4.333 4.556 4.778 5. ]
1234567891011121314
threshold
元素门槛值。数组个数沒有超过设置的阈值,NumPy就会将Python將所有元素列印出來。
##threshold
# 當要列印的陣列太大時,NumPy會自動以...代替一部分的內容,以減少篇幅!
# 但是可以透過全域設定set_printoptions設定threshold(門檻值),
# 元素數量少於或等於門檻值的陣列就會全部列印出來,
# 相反地,元素數量高於門檻值,列印時就會省略部分內容。
# 陣列大小:20,門檻值20 => 陣列元素數量小於等於門檻值,應列印全部內容
np.set_printoptions(threshold=20)
print("NumPy set_printoptions(threshold=20)\n", np.arange(20))
print()
# 陣列大小:20,門檻值15 => 陣列元素數量大於門檻值,應省略部分內容
np.set_printoptions(threshold=15)
print("NumPy set_printoptions(threshold=15)\n", np.arange(20))
Output:
NumPy set_printoptions(threshold=20)
[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19]
NumPy set_printoptions(threshold=15)
[ 0 1 2 3 4 ... 15 16 17 18 19]
lmsdem = gdal_array.LoadFile(path)
region = np.s_[1450:1500,1350:1400]
z = lmsdem[region]
np.set_printoptions(threshold=1000000) # print的元素个数小于1000000个,全部显示
print("="*30)
Output:
print(z) # 当threshold=1000000 时,实际打印的元素个数小于1000000,则打印结全部结果
[[1678 1718 1690 1660 1632 1641 1588 1491 1438 1411]
[1670 1630 1580 1560 1530 1550 1541 1490 1413 1362]
[1576 1559 1489 1461 1428 1435 1458 1426 1366 1323]
[1482 1500 1422 1375 1342 1324 1353 1355 1314 1274]
[1471 1457 1380 1304 1275 1257 1249 1278 1261 1250]
[1379 1370 1312 1266 1265 1259 1246 1233 1243 1238]
[1331 1298 1295 1338 1361 1336 1303 1251 1241 1237]
[1363 1335 1372 1428 1458 1410 1363 1311 1270 1258]
[1407 1381 1420 1485 1515 1485 1432 1367 1321 1321]
[1427 1461 1476 1531 1574 1537 1476 1435 1395 1382]]
==============================
print(z) # 当threshold=100 时,实际打印的元素个数大于100,则打印结果部分省略了
[[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]
...
[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]]
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849
edgeitems
当省略数组内元素内容时要显示的元素数量。
## edgeitems:當列印陣列時需要省略內容,edgeitems會決定要印出來的元素有幾個
np.set_printoptions(threshold=10, edgeitems=3)
print("NumPy set_printoptions(edgeitems=3)\n", np.arange(15))
print()
np.set_printoptions(threshold=10, edgeitems=5)
print("NumPy set_printoptions(edgeitems=5)\n", np.arange(15))
Output:
NumPy set_printoptions(edgeitems=3)
[ 0 1 2 ... 12 13 14]
NumPy set_printoptions(edgeitems=5)
[ 0 1 2 3 4 ... 10 11 12 13 14]
12345678910111213
linewidth
每一行要打印的元素个数
## linewidth
np.set_printoptions(linewidth=10)
print("NumPy set_printoptions(linewidth=10)\n", np.arange(15))
print()
np.set_printoptions(linewidth=20)
print("NumPy set_printoptions(linewidth=25)\n", np.arange(15))
Output:
NumPy set_printoptions(linewidth=10)
[ 0 1 2
3 4 5
6 7 8
9 10 11
12 13 14]
NumPy set_printoptions(linewidth=25)
[ 0 1 2 3 4 5
6 7 8 9 10 11
12 13 14]
123456789101112131415161718
suppress
是否要打印显示小数位
# suppress
np.set_printoptions(suppress=True)
print("NumPy set_printoptions(suppress=True)\n", np.arange(0, 1, 0.00
print()
np.set_printoptions(suppress=False)
print("NumPy set_printoptions(suppress=False)\n", np.arange(0, 1, 0.0
Output:
NumPy set_printoptions(suppress=True)
[0. 0. 0. ... 1. 1. 1.]
NumPy set_printoptions(suppress=False)
[0.e+00 1.e-05 2.e-05 ... 1.e+00 1.e+00 1.e+00]
12345678910111213
nanstr
当数组元素值出现NaN时所要显示的字符串
## nanstr
# 當陣列元素值出現not-a-number時要顯示的內容為何
np.set_printoptions(nanstr="Oops!")
a = np.array([np.nan, 1, np.nan], dtype=np.float16)
print("NumPy set_printoptions(nanstr=\"Oops!\")\n", a)
Output:
NumPy set_printoptions(nanstr="Oops!")
[Oops! 1. Oops!]
12345678910
infstr
数组元素值出現inf时所显示的字串
## infstr
# 當陣列元素值出現inf(無限大)時要顯示的內容為何
np.set_printoptions(infstr="∞")
a = np.array([np.inf, 8, -np.inf])
print("NumPy set_printoptions(infstr=\"∞\")\n", a)
Output:
NumPy set_printoptions(infstr="∞")
[ ∞ 8. -∞]
123456789
formatter
使用lambda函數客製列印陣列元素的格式
## formatter
# 使用lambda函數客製列印陣列元素的格式
np.set_printoptions() # reset print options
np.set_printoptions(formatter={'all': lambda x: 'i:' + str(x)})
print("NumPy set_printoptions(formatter={all: i:})\n", np.arange(0,5)
print()
# 這邊可以看出來,只設定了float的格式,是不會對int產生影響的
np.set_printoptions(formatter={'float_kind': lambda x: 'f:' + str(x)
print("NumPy set_printoptions(formatter={float_kind: f:})\n", np.arange(0,5))
print("NumPy set_printoptions(formatter={float_kind: f:})\n", np.arange(0,5))
print()
# 如果同時只想要客製float和int的格式,可以用逗號隔開設定值
np.set_printoptions(formatter={'int_kind': lambda x: 'i:' + str(x),
print("NumPy set_printoptions({int_kind: i:, float_kind: f:})\n", np.arange(0,5))
print("NumPy set_printoptions({int_kind: i:, float_kind: f:})\n", np.arange(0,5))
Output:
NumPy set_printoptions(formatter={all: i:})
[i:0 i:1 i:2 i:3 i:4]
NumPy set_printoptions(formatter={float_kind: f:})
[0 1 2 3 4]
NumPy set_printoptions(formatter={float_kind: f:})
[f:0.0 f:1.0 f:2.0 f:3.0 f:4.0]
NumPy set_printoptions({int_kind: i:, float_kind: f:})
[i:0 i:1 i:2 i:3 i:4]
NumPy set_printoptions({int_kind: i:, float_kind: f:})
[f:0.0 f:1.0 f:2.0 f:3.0 f:4.0]
1234567891011121314151617181920212223242526272829
sign
控制正负号
## sign
# 當sign='+'時,就會連正數都會加上正號
np.set_printoptions(sign='+')
a = np.array([9, 8, -6, -7], dtype=np.float16)
print("NumPy set_printoptions(sign=\"+\")\n", a)
print()
# 當sign='-'時(預設值),就是只有數值<0時,才會加上負號
np.set_printoptions(sign='-')
a = np.array([9, 8, -6, -7], dtype=np.float16)
print("NumPy set_printoptions(sign=\"-\")\n", a)
Output:
NumPy set_printoptions(sign="+")
[+9. +8. -6. -7.]
NumPy set_printoptions(sign="-")
[ 9. 8. -6. -7.]
12345678910111213141516
floatmode 控制“精度”选项的解释浮点类型。
画一个直方图
p=np.random.rand(10000)
np.set_printoptions(edgeitems=5000,suppress=True)
plt.hist(p,bins=20,color="g",edgecolor="k")
plt.show()
画一个高斯分布
##概念:正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。可以判断各种情况出现的概率,进而指导下一步的操作
随机变量是取值有多种可能并且取每个值都有一个概率的变量。它分为离散型和连续型两种,离散型随机变量的取值为有限个或者无限可列个(整数集是典型的无限可列),连续型随机变量的取值为无限不可列个(实数集是典型的无限不可列)。
n=10000
times=100
#初始化一个1*n的矩阵
z=np.zeros(n)
print(z)
for i in range(times):
z+=np.random.rand(n)
z/=times #z=z/times
plt.hist(z,bins=20,color="m",edgecolor="k")
plt.show()
#生成3*4的矩阵#
d=np.random.rand(3,4)
print(d)
print(type(d)) #类型为数组
#############################一个神奇的操作#####################################
d[d<0.5]=0.5 #对于d中元素小于0.5的元素全部赋值为0.5 (这里涉及到列表推导式的简写)
panda模块的引入
d=np.random.rand(3,4)
print(d)
print(type(d))
print("#"*50)
data=pd.DataFrame(data=d,columns=list("abcd")) #也可以用["a","b","c","d"] 代替,看源码是没有方法设置列标签的
print(data)
#拿出data里面b这一列的值
data["b"]
data.to_Csv("data.csv",index=False,header=True)
cv2的图片数据像素获取
import cv2
image=cv2.imread("11.jfif")
print(image)
print(type(image))
print(image.shape)
PIL的图片数据获取
from PIL import Image
a=Image.open("11.jfif")
print(a)
##获取a的像素值
b=np.array(a)
print(b,type(b))
1. 概率论基础
1.1 概率公式
1.2 贝叶斯公式
1.3 分布
两点分布
二项分布(伯努利分布)
方法一:
Taylor展开式
泊松分布
2. 统计量
2.1 期望
2.2 方差
2.2 协方差
2.2 相关系数
3. 大数定理
4. 中心极限定理
5. 最大似然估计
5.1 过拟合
#来画一个图像#
统计从一到一百的阶乘并且把它首个数字出现的个数进行统计
def factorial(x):
if x==1:
return 1
return factorial(x-1)*x
list=[0]*9
for i in range(1,100):
fa=factorial(int(i))
num_first=int(str(fa)[0])
#print(fa)
list[num_first-1]=list[num_first-1]+1
plt.plot(list,"r-",linewidth=1)
plt.show()
运行结果:
##这里有个问题##就是递归1000次提示如下:
##进行改进代码:
def factorial(x):
factorial_num=1
for i in range(2,x+1):
factorial_num*=i
return factorial_num
list=[0]*9
for i in range(1,1000):
fa=factorial(int(i))
num_first=int(str(fa)[0])
#print(fa)
list[num_first-1]=list[num_first-1]+1
plt.plot(list,"r-",linewidth=1)
plt.show()
本福特定律
基本概念
概念:本福特定律,也称为本福特法则,说明一堆从实际生活得出的数据中,以1为首位数字的数的出现概率约为总数的三成,接近直觉得出之期望值1/9的3倍。推广来说,越大的数,以它为首几位的数出现的概率就越低。它可用于检查各种数据是否有造假。
本福特定律(也称为第一位数法或本福特分布)是一种概率分布,许多统计学的(但不是全部)数据集的第一个数字符合。 例如
15435 是1
56 是5
9001 是9
199 是1
9 是9
12345
本福特定律通常可用作欺诈性数据的指标,并可协助审计会计数据。本福特的分布是一种不均匀的分布,较小的数字比较大的数字有更大的出现j可能。
数位分布概率
第1位数字 | 出现概率 |
---|---|
1 | 0.301 |
2 | 0.176 |
3 | 0.125 |
4 | 0.097 |
5 | 0.079 |
6 | 0.067 |
7 | 0.058 |
8 | 0.051 |
9 | 0.046 |
本福特分布图
本福特分布公式
P ( d ) = l o g 10 ( d + 1 ) − l o g 10 d = l o g 10 ( 1 + 1 d ) P(d) = log_{10}(d + 1)-log_{10}d = log_{10}(1 + \frac{1}{d})P(d)=log10(d+1)−log10d=log10(1+d1)
本福特定律适用于哪类数据?
在大部分情况下,本福特定律可以适用于具有以下特征的数据:
- 具有通过来自多个分布的数字的数学组合形成的值的数据。
- 具有多种数字的数据,例如 具有数百,数千,数万等数值的数据。
- 数据集相当大。
- 数据是右倾斜的,即平均值大于中值,并且分布具有长的右尾而不是对称的。
- 数据没有预定义的最大值或最小值(最小值为零)。
虽然有以上的限制,但实际上在会计中,符合上述特征的数据非常普遍。
会计欺诈检测与取证分析
应收账款,应付账款,销售和费用数据均基于两种类型的变量相乘的值,即价格和数量。 单独,价格和数量不太可能符合本福特定律,但很可能会成倍增加。 这种会计数据也可能是正确的。 大公司的交易级会计数据几乎总是会有大量的观察结果。
如果某些会计数据预计符合本福特定律但不符合,则并不一定意味着数据是欺诈性的。 然而,这将为进一步调查提供充分的理由。
以下是如何对会计数据执行本福特分布分析的一些示例。
示例1 大型企业的应付账款数据
分析显示,大型企业的应付几款的数据的数字第一位数字中有很大比例的1
。经过仔细检查后发现,与上一个会计期间相比,还有更多的支付支票略高于1000美元。前一期的大部分支票金额低于100美元。
在一起财务调查中,负责的财务官随后受到质疑,他们回答称他们决定汇总金额以试图减少支票。低数字金额的合并是偏离本福特定律的常见解释,使财务官的解释变得合情合理。
经过进一步调查,据透露,该官员正在向他们创建的虚假壳公司写支票。
示例2:本福特的分析应用于组织的费用数据。
最初的本福特分析显示,数据的第一位数字中“非常大”的比例非常大。经过仔细检查,特定费用的许多条目达到45美元。发现费用对于运营组织至关重要,必须经常支付。调查了这笔特殊费用,然后被认为是合法的。
然后将Benford的分析应用于费用数据的副本,但省略了特定的频繁费用。发现排除该特定费用的数据与本福特的分布非常接近。
超越第一个数字推广本福特定律
通过查看第一个数字以外的数字,可以增强Benford的分析。
广义本福特的分布表
译者:本表的作用是表示分布规则还可以作用在不同的数位上。比如,0出现在第2位的概率是 11.97%,要高于平均值10%。
数位 | 第1位 | 第2位 | 第3位 | 第4位 | 第5位 |
---|---|---|---|---|---|
0 | NA | 0.11968 | 0.10178 | 0.10018 | 0.10002 |
1 | 0.30103 | 0.11389 | 0.10138 | 0.10014 | 0.10001 |
2 | 0.17609 | 0.10882 | 0.10097 | 0.10010 | 0.10001 |
3 | 0.12494 | 0.10433 | 0.10057 | 0.10006 | 0.10001 |
4 | 0.09691 | 0.10031 | 0.10018 | 0.10002 | 0.10000 |
5 | 0.07918 | 0.09668 | 0.09979 | 0.09998 | 0.10000 |
6 | 0.06695 | 0.09337 | 0.09940 | 0.09994 | 0.09999 |
7 | 0.05799 | 0.09035 | 0.09902 | 0.09990 | 0.09999 |
8 | 0.05115 | 0.08757 | 0.09864 | 0.09986 | 0.09999 |
9 | 0.04576 | 0.08500 | 0.09827 | 0.09982 | 0.09998 |
注意:由以上数据可以看出,在广义分布中,数字的出现概率要比第一个数字更加均匀。
一般分布公式
P ( d ) = ∑ k = 1 0 n − 2 1 0 n − 1 − 1 l o g 10 ( 1 + 1 10 k + d ) P(d)=\sum_{k=10{n-2}}{10^{n-1} - 1}log_{10}(1 + \frac{1}{10k+d})P(d)=k=10n−2∑10n−1−1log10(1+10k+d1)
概率公式
条件概率:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jYoZbw4z-1613795005797)(https://bkimg.cdn.bcebos.com/formula/e30d3c07ebac8545498b8acac60f34e8.svg)]
全概率:
定理
若事件A1,A2,…构成一个完备事件组且都有正概率,则对任意一个事件B,有如下公式成立:
P(B)=P(BA1)+P(BA2)+…+P(BAn)=P(B|A1)P(A1) + P(B|A2)P(A2) + … + P(B|An)P(An).
此公式即为全概率公式。
特别地,对于任意两随机事件A和B,有如下成立:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bV8Df0MD-1613795005803)(https://bkimg.cdn.bcebos.com/formula/35b10c674e416e7e862267aeea2b312c.svg)]
其中A和Ac为对立事件。
贝叶斯公式:
所谓贝叶斯公式,是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。但行为经济学家发现,人们在决策过程中往往并不遵循贝叶斯规律,而是给予最近发生的事件和最新的经验以更多的权值,在决策和做出判断时过分看重近期的事件。面对复杂而笼统的问题,人们往往走捷径,依据可能性而非根据概率来决策。这种对经典模型的系统性偏离称为“偏差”。由于心理偏差的存在,投资者在决策判断时并非绝对理性,会行为偏差,进而影响资本市场上价格的变动。但长期以来,由于缺乏有力的替代工具,经济学家不得不在分析中坚持贝叶斯法则。 [1]
贝叶斯法则
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。
作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wwCjXjom-1613795005806)(https://bkimg.cdn.bcebos.com/formula/b31aa378530e552127512be06a522b70.svg)]
其中P(A|B)是在B发生的情况下A发生的可能性。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vDw6hpO8-1613795005807)(https://bkimg.cdn.bcebos.com/formula/3b5568f4510de6601c831270ef37af8e.svg)]
为完备事件组,即
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2H0Asm18-1613795005809)(https://bkimg.cdn.bcebos.com/formula/47b44530235acff6998900774c85683d.svg)]
在贝叶斯法则中,每个名词都有约定俗成的名称:
Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。
按这些术语,Bayes法则可表述为:
后验概率 = (似然度 * 先验概率)/标准化常量 也就是说,后验概率与先验概率和似然度的乘积成正比。
另外,比例Pr(B|A)/Pr(B)也有时被称作标准似然度(standardised likelihood),Bayes法则可表述为:
后验概率 = 标准似然度 * 先验概率。 [1]
贝式定理
对于变量有二个以上的情况,贝式定理亦成立。例如:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mmexsINg-1613795005810)(https://bkimg.cdn.bcebos.com/formula/7ed711ff66ae708e02b1ba224862a7be.svg)]
这个式子可以由套用多次二个变量的贝氏定理及条件机率的定义导出。
两点分布
伯努利分布指的是对于随机变量X有, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)。伯努利试验成功的次数服从伯努利分布,参数p是试验成功的概率。伯努利分布是一个离散型机率分布,是N=1时二项分布的特殊情况,为纪念瑞士科学家詹姆斯·伯努利(Jacob Bernoulli 或James Bernoulli)而命名。 [1]
一个非常简单的试验是只有两个可能结果的试验,比如正面或反面,成功或失败,有缺陷或没有缺陷,病人康复或未康复。为方便起见,记这两个可能的结果为0和1,下面的定义就是建立在这类试验基础之上的。 [2]
如果随机变量X只取0和1两个值,并且相应的概率为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nMmLreFw-1613795005811)(https://bkimg.cdn.bcebos.com/formula/94dbb6dd3fcf103a46c81205a8e46d36.svg)]
则称随机变量X服从参数为p的伯努利分布,若令q=1一p,则X的概率函数可写
为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zAb1p6FT-1613795005812)(https://bkimg.cdn.bcebos.com/formula/6964206b823dda83d13fd409cb9075e5.svg)]
要证明该概率函数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ymt6b4Q9-1613795005813)(https://bkimg.cdn.bcebos.com/formula/b52ed39c539199d5f4d4c046e1ffaef8.svg)]
确实是公式所定义的伯努利分布,只要注意到
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pQHidO1m-1613795005813)(https://bkimg.cdn.bcebos.com/formula/09841e3efde3f52360fcf239d100e590.svg)]
,就很容易得证。 [2]
二项分布
在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution)。 [1]
在概率论和统计学中,二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。 [2]
一般地,如果随机变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WEBlY8C3-1613795005815)(https://bkimg.cdn.bcebos.com/formula/9f7d1d2e6f98698b18cf0939756901ac.svg)]
服从参数为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gveu9pm1-1613795005816)(https://bkimg.cdn.bcebos.com/formula/561ce0d0c21ba2a257cc72a28956377b.svg)]
和
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-No859st9-1613795005816)(https://bkimg.cdn.bcebos.com/formula/d8c7c06e950362e1dc4b91f25c37f38a.svg)]
的二项分布,我们记为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mNLsMjmy-1613795005817)(https://bkimg.cdn.bcebos.com/formula/bcffdbb8feb6becc504ad8dfffbce9a4.svg)]
或
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bJBVkPFO-1613795005818)(https://bkimg.cdn.bcebos.com/formula/cc0fb2cf4503f27b5f06d2d3e83156e6.svg)]
。n次试验中正好得到k次成功的概率由概率质量函数给出: [2]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qbRgzerX-1613795005819)(https://bkimg.cdn.bcebos.com/formula/810fe5db77e112b4230ce3c0e156a589.svg)]
式中k=0,1,2,…,n,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NSykV3QZ-1613795005820)(https://bkimg.cdn.bcebos.com/formula/78f08bad28624c78ef7a97616854f5fa.svg)]
是二项式系数(这就是二项分布名称的由来),又记为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w8yZnGNM-1613795005821)(https://bkimg.cdn.bcebos.com/formula/5a850a52b9d9789158a7a3a6869264dc.svg)]
或者
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MGoRhYMC-1613795005822)(https://bkimg.cdn.bcebos.com/formula/487193a48a755ae068b269d85c610206.svg)]
。 该公式可以用以下方法理解:我们希望有k次成功§和n−k次失败(1 −p)。并且,k次成功可以在n次试验的任何地方出现,而把k次成功分布在n次试验中共有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qq3woFtG-1613795005822)(https://bkimg.cdn.bcebos.com/formula/5a850a52b9d9789158a7a3a6869264dc.svg)]
个不同的方法。 [2]
期望与方差
[编辑](javascript:😉
如果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dePQdyec-1613795005824)(https://bkimg.cdn.bcebos.com/formula/bcffdbb8feb6becc504ad8dfffbce9a4.svg)]
(也就是说,X是服从二项分布的随机变量),那么X的期望值为: [3]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XDNPH3TS-1613795005824)(https://bkimg.cdn.bcebos.com/formula/219a905d068258813d9930c3c2d42cb8.svg)]
X的方差为: [3]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-25FDxThn-1613795005825)(https://bkimg.cdn.bcebos.com/formula/5c085e90b2ae60406216d0cd4c75253b.svg)]
这个事实很容易证明。首先假设有一个伯努利试验。试验有两个可能的结果:1和0,前者发生的概率为p,后者的概率为1−p。该试验的期望值等于μ= 1 · p+ 0 · (1−p) =p。该试验的方差也可以类似地计算:σ2= (1−p)2·p+ (0−p)2·(1−p) =p(1 − p)。 [3]
一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和: [3]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IfirSYE0-1613795005826)(https://bkimg.cdn.bcebos.com/formula/8af74723b44b1cd460a74397a76c1023.svg)]
负二项分布
负二项分布是统计学上一种离散概率分布。满足以下条件的称为负二项分布:实验包含一系列独立的实验, 每个实验都有成功、失败两种结果,成功的概率是恒定的,实验持续到r次不成功,r为正整数。
假设有一组独立的伯努利数列,每次实验有两种结果“成功”和“失败”。每次实验的成功概率是p,失败的概率是1-p。我们得到一组数列,当预定的“非成功”次数达到r次,那么结果为“成功”的随机次数会服从负二项分布:
X~NB(r;P)
我们在现实生活中也常有应用,成功和失败的结果可能或者可能不是我们平时所认认为的“好”与“坏”。假设我们把负二项分布用在一台设备在故障前正常运行的天数的模型,这种情况下,设备一天运行正常,记为结果“成功”,反之故障的话结果为“失败”。如果我们把负二项分析用在动作员尝试射门得分前的尝试次数模型,这种情况下,每次不成功的尝试在模型里为“成功”,并且得分记为“失败”。如果我们抛硬币,负二项分布可以把头像一面作为“成功”来记数,在我们提到失败的结果之前。在下面的概率密度函数里,P是成功的概率,1-p是失败的概率。 [2]
负二项分布的概率密度函数为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jDQTbAZZ-1613795005826)(https://bkimg.cdn.bcebos.com/formula/49227c90ff7a640b991ff3d7c5c9da84.svg)]
这里的括号里的数为二项分布的系数,并且等于
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qyOHrr38-1613795005827)(https://bkimg.cdn.bcebos.com/formula/8dfa940916569a1ef49b91c8d8dbbed3.svg)]
该数可以按下面的格式表示,也正是解释了“负二项”的名字的由来:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yR4eUPnW-1613795005828)(https://bkimg.cdn.bcebos.com/formula/a72b62570d77b37bd483e0f6802d27d3.svg)]
为了理解上面的概率密度函数,因为k+r次重复试验的结果假设是独立的,需要注意每个特定的k作为成功和r失败的数列为(1-p)p。因为第r个失败是最后发生的,所以需要k+r-1次重复实验中有k次成功的。上面的二项分布系数,正好它的组合长度为k+r-1。 [3]
递推公式为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M7cIDQkN-1613795005829)(https://bkimg.cdn.bcebos.com/formula/4918d5fe55b92ebc405086e5ae6510f2.svg)]
期望
[编辑](javascript:😉
参数为(r, p)的负二项分布的数列k+r的期望是
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gqTmIcGp-1613795005831)(https://bkimg.cdn.bcebos.com/formula/66c231ce1d31e7774058251f1bc00fb1.svg)]
。为了更直观的观察,想象上面的实验进行了许多次,也就是说,进行特定的实验直到r个失败出现,然后另外的一个特定的实验,然后是另外的实验,等等。写下每次实验的这些尝试的次数:a, b, c…并且把
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aBjRrOWD-1613795005832)(https://bkimg.cdn.bcebos.com/formula/3bd7075fd98e25fda6dcb9ba6f97003b.svg)]
。现在我们对失败的预期为N(1-p)。我们说实验重复了n次,并且总共有有nr个失败。所以我们估计nr=N(1-p),所以
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ds6ATOm4-1613795005834)(https://bkimg.cdn.bcebos.com/formula/291e50a1a77c1ba37b4fd546ae7632ab.svg)]
。注意N/n仅仅是平均每个实验的尝试次数。这就是我们所说的“期望”。每次实验的平均成功的尝试次数为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DMx41jYO-1613795005835)(https://bkimg.cdn.bcebos.com/formula/eab67052a41c6f5b99027001fd06f48e.svg)]
,期望值等于
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r1STKfTb-1613795005836)(https://bkimg.cdn.bcebos.com/formula/6ffc3f572497c4bb71f9002d63a5c5e8.svg)]
。 [3]
实数r的延伸
[编辑](javascript:😉
把负二项分布的定义延伸到到的参数r。尽管很难想象一个非整数的失败次数,我们仍然可以通过概率密度函数在形式上定义这个分布。
就像之前,我们说X服从负二项分布(或者波利亚分布),如果它有一个如下所示的概率密度函数:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DeHAlZgG-1613795005837)(https://bkimg.cdn.bcebos.com/formula/b80aab7a7b7a346e7af5c87538596164.svg)]
这里r是一个正实数。通过乘法公式,二项分布系数可以重新定义,并且可以重新写成gamma分布的公式。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-muCjUkHq-1613795005839)(https://bkimg.cdn.bcebos.com/formula/f454c8d489f2ed01905b5f14c77dd355.svg)]
注意二项分布序列和上面的内容里,0≤p≤1.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5TUCxbcL-1613795005839)(https://bkimg.cdn.bcebos.com/formula/46921c48125e1a49bd51e42a23e4e7bd.svg)]
因此,概率密度函数的项实际上可以合并成一项。
替代公式
[编辑](javascript:😉
有一些书里的负二项分布的公式定义可能和这里的有一些小区别。最常见的变化就是:
X是实验总次数,得到r个失败的尝试。不仅仅是成功的次数。因此,实验总次数等于失败数加成功数,这个不同于这里定义的X。 [3]
为了把公式换这种定义进行转换,把k用k-r代替,并且从均值、中位数,或者众数中减去r。为了将按本节定义的负二项分布的公式转换成本文里的公式,需要用k+r代替k,并且在均值,中位数,众数中加上r。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gPN2xX0T-1613795005841)(https://bkimg.cdn.bcebos.com/formula/3ef32d4a68e81fb5cbd04420a980ede8.svg)]
这个可能比上面的版本看起来更像二项分布,注意二项分布的参数是按顺序减少的:最后一个失败必然在最后发生,所以其它的事件有更少的可利用的位置,在计算顺序可能性时。
注意这里的负二项分布的定义没有推广到正实数r。
P表示失败的概率,不是成功的。为了把公式进行转换,每个地方用1-p代替p。X定义为失败次数,而不是成功的,这里的定义X为失败的,但P是成功的,和前面X表示成功但P表示失败概率的情况用同样的公式。但是失败和成功的描述是一致的,并且和前面的进行替换。
这两个替代公式可能会同时使用,比如X表示总次数,P表示失败次数。
负二项回归,分布是在均值m项里就定义了,并且和线性回归或者其它的一般线性回归的解释变量相关。概率密度函数变为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Awhbs6k-1613795005842)(https://bkimg.cdn.bcebos.com/formula/04a9a7d8396cce567d848cc88f068d47.svg)]
方差可以写成m+m/r,参数r参考离散参数,形状参数,集中系数,或者非均匀或者集中参数。集中参数特别常用于生态学用来描述独立微生物。减少聚集参数r到0,与增加微生物聚集相一致。0到正无穷的增加相当于没有聚合,可以被描述成泊松分布。一些负二项回归使用r的倒数并且当作分散度参数。 [1]
有时候分布使用均值u和方差σ来参数化分布,这种情况下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2wjjG4LU-1613795005842)(https://bkimg.cdn.bcebos.com/formula/cccc42dbe889465d49a3035e6c8d77e5.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yxp8vYfs-1613795005843)(https://bkimg.cdn.bcebos.com/formula/b3692be32c9bc115baa5df1d288dfacd.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MbtRJVF2-1613795005844)(https://bkimg.cdn.bcebos.com/formula/66fdea976268d9a75c8f6c0a774f0757.svg)]
事件
[编辑](javascript:😉
在r为整数的特定情况下,负二项分布也可以称作帕斯卡分布。它是在独立重复的伯努利实验中成功和失败的数目的概率分布。因为k+r次概率为p的成功的伯努利实验可以得到最后一次为失败的k次成功和r次失败的概率。换句话说,负二项分布为成功概率为p的伯努利过程中第r次失败前的成功次数的概率分布。一个伯努利过程是离散的过程。因此,实验次数,失败、成功次数都是整数。 [1]
泊松分布
Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。
分布特点
[编辑](javascript:😉
泊松分布的概率函数为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8EiWlWPV-1613795005844)(https://bkimg.cdn.bcebos.com/formula/fb8ba6b970e4eb1892b70adbc0b8ef68.svg)]
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HoIPnyT7-1613795005845)(https://bkimg.cdn.bcebos.com/formula/a698c7fa23335b1b10f244f3866e7ac2.svg)]
特征函数为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bpx8PZZ8-1613795005846)(https://bkimg.cdn.bcebos.com/formula/444dba043e9e49d1978c0a37951de174.svg)]
关系
[编辑](javascript:😉
泊松分布与二项分布
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
事实上,泊松分布正是由二项分布推导而来的,具体推导过程参见本词条相关部分。
应用场景
[编辑](javascript:😉
在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布*P*(λ)。因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。(在早期学界认为人类行为是服从泊松分布,2005年在nature上发表的文章揭示了人类行为具有高度非均匀性。)
应用示例
[编辑](javascript:😉
泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。 [1]
观察事物平均发生m次的条件下,实际发生x次的概率P(x)可用下式表示:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ZjEkO5S-1613795005847)(https://bkimg.cdn.bcebos.com/formula/b20c51b36e642febda470ca91c2bd5b3.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dfz8BJsC-1613795005848)(https://bkimg.cdn.bcebos.com/formula/f875370f4229a244df8b5fd96e602130.svg)]
例如采用0.05J/㎡紫外线照射大肠杆菌时,每个基因组(~4×10核苷酸对)平均产生3个嘧啶二体。实际上每个基因组二体的分布是服从泊松分布的,将取如下形式:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LhORpnyg-1613795005849)(https://bkimg.cdn.bcebos.com/formula/5cef4848b9da50e1e26de143392ae169.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gsJTRpNL-1613795005850)(https://bkimg.cdn.bcebos.com/formula/38e93bb077514d41b2f442612c86548d.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R11t0YZ5-1613795005851)(https://bkimg.cdn.bcebos.com/formula/b1030262eb209f99114d5edec6db580a.svg)]
……
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6p0ad5UP-1613795005852)(https://bkimg.cdn.bcebos.com/formula/87e1001402970b2fdeb3bffd25fee469.svg)]
是未产生二体的菌的存在概率,实际上其值的5%与采用0.05J/㎡照射时的大肠杆菌uvrA-株,recA-株(除去既不能修复又不能重组修复的二重突变)的生存率是一致的。由于该菌株每个基因组有一个二体就是致死量,因此
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g1F1WxSI-1613795005853)(https://bkimg.cdn.bcebos.com/formula/bbf3cdf7b57225985e5cd9fdc456f88c.svg)]
就意味着全部死亡的概率。 [2]
均匀分布
在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
性质
[编辑](javascript:😉
概率密度函数
均匀分布的概率密度函数为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qmd6IqI5-1613795005853)(https://bkimg.cdn.bcebos.com/formula/f9c52ad3f2488f25aa08dfe06e850d2a.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NAE9J5J5-1613795005854)(https://bkimg.cdn.bcebos.com/formula/ce03ddee777d88c779e3cb0e213528d4.svg)]
在两个边界a和b处的f(x)的值通常是不重要的,因为它们不改变任何
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LlawxY1g-1613795005855)(https://bkimg.cdn.bcebos.com/formula/e6b20bcfc55c968323c5ecd6f3584bfb.svg)]
的积分值。 概率密度函数有时为0,有时为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qZDhSpMp-1613795005855)(https://bkimg.cdn.bcebos.com/formula/4204f492febcd61b2d00a1a810ac6e0c.svg)]
。 在傅里叶分析的概念中,可以将f(a)或f(b)的值取为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bWqe8H9F-1613795005856)(https://bkimg.cdn.bcebos.com/formula/4c0c57aba8af37ef1813cefa25be6cb7.svg)]
矩
一阶矩(均值):
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WET93u9F-1613795005857)(https://bkimg.cdn.bcebos.com/formula/2894022b67fb5a0e2c50ddd85773cd30.svg)]
二阶中心矩(方差):
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TDkQ180a-1613795005857)(https://bkimg.cdn.bcebos.com/formula/76101d5f7031b9accf0452d976b8a4aa.svg)]
也可以用期望来求:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fy3PKdzs-1613795005858)(https://bkimg.cdn.bcebos.com/formula/be68e8aa5242f666c1caf8b195c38032.svg)]
指数分布
分布函数
[编辑](javascript:😉
指数分布的分布函数由下式给出:
有:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aE6D05vk-1613795005860)(https://bkimg.cdn.bcebos.com/formula/aa2543788ec834ef3b7f12fb8ad5627e.svg)]
数学期望
期望值:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zdoTeQ8m-1613795005860)(https://bkimg.cdn.bcebos.com/formula/11b70dda479212e532201abf5c70b384.svg)]
比方说:如果你平均每个小时接到2次电话,那么你预期等待每一次电话的时间是半个小时。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8EtEOuaT-1613795005861)(https://bkimg.cdn.bcebos.com/formula/4dd8432e00606fda800d168cc2c9c990.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UDHysNhV-1613795005862)(https://bkimg.cdn.bcebos.com/formula/5d04e3e31cc1689401b64d711a07192d.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MA7hs1u9-1613795005862)(https://bkimg.cdn.bcebos.com/formula/717d14b13fb841c8665f0a1eef325309.svg)]
方差
方差:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d53XqJg7-1613795005863)(https://bkimg.cdn.bcebos.com/formula/e7b221cf839fb37af6a07b31ad4dca68.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kxLfhvsi-1613795005864)(https://bkimg.cdn.bcebos.com/formula/5301228d6433efbed3b2b4dd749d8d0a.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D5LIncmp-1613795005864)(https://bkimg.cdn.bcebos.com/formula/4bb60084b07c148aed1bb697271ae4dc.svg)]
特性
[编辑](javascript:😉
无记忆性
指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布
当
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ufk2yfPN-1613795005865)(https://bkimg.cdn.bcebos.com/formula/29768ffb72e49337edad159fcec893a7.svg)]
时有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LB2zbEXX-1613795005866)(https://bkimg.cdn.bcebos.com/formula/505f0edf8395b863c7d4b951526b1e12.svg)]
即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gLhwV0yc-1613795005867)(https://bkimg.cdn.bcebos.com/formula/4c48031b488990689cb98fca45729462.svg)]
小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。
分位数
参数λ的四分位数函数(Quartile function)是:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eirETQR1-1613795005867)(https://bkimg.cdn.bcebos.com/formula/dbc8ec69ef08102b9ba4665c7bcaf0db.svg)]
第一四分位数:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDrXIl9P-1613795005869)(https://bkimg.cdn.bcebos.com/formula/17eefe4106ac3ac1a9e8ece2ee6033d2.svg)]
中位数:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i0mCZP58-1613795005870)(https://bkimg.cdn.bcebos.com/formula/87e903bf919216439378b9244208523e.svg)]
第三四分位数:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JJiLg7Wh-1613795005871)(https://bkimg.cdn.bcebos.com/formula/10e302f6fb416f1ef53c920409e58589.svg)]
分布
[编辑](javascript:😉
在概率论和统计学中,指数分布(Exponential distribution)是一种连续概率分布。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、中文维基百科新条目出现的时间间隔等等。
许多电子产品的寿命分布一般服从指数分布。有的系统的寿命分布也可用指数分布来近似。它在可靠性研究中是最常用的一种分布形式。指数分布是伽玛分布和威布尔分布的特殊情况,产品的失效是偶然失效时,其寿命服从指数分布。
指数分布可以看作当威布尔分布中的形状系数等于1的特殊分布,指数分布的失效率是与时间t无关的常数,所以分布函数简单。
正态分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
定理
[编辑](javascript:😉
由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。 [2]
若
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JZ0rm4o0-1613795005874)(https://bkimg.cdn.bcebos.com/formula/01a91c9fd0fb903c925ffe1faa8bcbfe.svg)]
服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)
定义
[编辑](javascript:😉
一维正态分布
若随机变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DkSQTaV4-1613795005875)(https://bkimg.cdn.bcebos.com/formula/9f7d1d2e6f98698b18cf0939756901ac.svg)]
服从一个位置参数为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MfdkW9Sm-1613795005876)(https://bkimg.cdn.bcebos.com/formula/b7f43d75b3354a3bb6dccf21c32bdeff.svg)]
、尺度参数为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S9MObRL8-1613795005877)(https://bkimg.cdn.bcebos.com/formula/29ecac7d98ef7b8b7d4399a961ff7b42.svg)]
的概率分布,且其概率密度函数为 [3]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AvaWTYYQ-1613795005879)(https://bkimg.cdn.bcebos.com/formula/d8fc1a3696534a47f23d6bcb60c1212c.svg)]
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Up3tvC45-1613795005881)(https://bkimg.cdn.bcebos.com/formula/c6616be8ba462efb300df50f0ee95e33.svg)]
,读作
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tW6eESwS-1613795005882)(https://bkimg.cdn.bcebos.com/formula/9f7d1d2e6f98698b18cf0939756901ac.svg)]
服从
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mZhjngGn-1613795005883)(https://bkimg.cdn.bcebos.com/formula/c6cb25430996aa9e0ff2663f8422fc02.svg)]
,或
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SYIxeSwH-1613795005884)(https://bkimg.cdn.bcebos.com/formula/9f7d1d2e6f98698b18cf0939756901ac.svg)]
服从正态分布。
μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
本词条的正态分布是一维正态分布,此外多维正态分布参见“二维正态分布”。
标准正态分布
当
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RKAevzod-1613795005885)(https://bkimg.cdn.bcebos.com/formula/040c60274885dfce9652570e92cf8dcc.svg)]
时,正态分布就成为标准正态分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SJxaRRTs-1613795005886)(https://bkimg.cdn.bcebos.com/formula/a49f2d97f625020c180a64346e8cece7.svg)]
性质
[编辑](javascript:😉
正态分布的一些性质: [3]
(1)如果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QUAsYoDW-1613795005887)(https://bkimg.cdn.bcebos.com/formula/3c7ca371bffedf09ae2cd011c4238506.svg)]
且a与b是实数,那么
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a1DgIKOJ-1613795005888)(https://bkimg.cdn.bcebos.com/formula/093f43c92561a74621c51f68f3fdcfe0.svg)]
(2)如果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5w8uBU8s-1613795005889)(https://bkimg.cdn.bcebos.com/formula/9c5e54430c8c7fe509bf92f8c6251d43.svg)]
与
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4d2zDfTu-1613795005890)(https://bkimg.cdn.bcebos.com/formula/914a2a450b95d65e709037c422822692.svg)]
是统计独立的正态随机变量,那么:
它们的和也满足正态分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qV9et9en-1613795005890)(https://bkimg.cdn.bcebos.com/formula/7efcc1c3dfeb2e5e0348b40ea6d493d3.svg)]
它们的差也满足正态分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CKCE5yrr-1613795005891)(https://bkimg.cdn.bcebos.com/formula/12d8b262f3f1b8b4a3744da36d01ddb2.svg)]
U与V两者是相互独立的。(要求X与Y的方差相等)。
(3)如果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n5eEvvez-1613795005892)(https://bkimg.cdn.bcebos.com/formula/cb5faaf4975854f79c8545218eba443c.svg)]
和
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BZ8Nhlbk-1613795005892)(https://bkimg.cdn.bcebos.com/formula/a27dc29178243961eec7d1252a8bcd66.svg)]
是独立常态随机变量,那么:
它们的积XY服从概率密度函数为p的分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FMUZeazp-1613795005893)(https://bkimg.cdn.bcebos.com/formula/ee15633c11e8b6028b2819bc3d9c1125.svg)]
其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RdogQpPY-1613795005894)(https://bkimg.cdn.bcebos.com/formula/880092c4cfc86b7a8e7b5afabe343312.svg)]
是修正贝塞尔函数(modified Bessel function)
它们的比符合柯西分布,满足
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SrB5Cy7u-1613795005894)(https://bkimg.cdn.bcebos.com/formula/f8620461d5bb32a7712650cad930bf7e.svg)]
(4)如果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bby2ggMe-1613795005895)(https://bkimg.cdn.bcebos.com/formula/c4a9dc9e08bf7b05439e028525a58878.svg)]
为独立标准常态随机变量,那么
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y9g2bSoL-1613795005896)(https://bkimg.cdn.bcebos.com/formula/fb6533c224ccb846a1ec6ee7b768bc60.svg)]
服从自由度为n的卡方分布。
分布曲线
[编辑](javascript:😉
图形特征
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
参数含义
正态分布有两个参数,即期望(均数)μ和标准差σ,σ2为方差。
正态分布具有两个参数μ和σ2的[连续型随机变量](https://baike.baidu.com/item/连续型随机变量)的分布,第一参数μ是服从正态分布的随机变量的[均值](https://baike.baidu.com/item/均值),第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2)。
μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
面积分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ktpw1kJG-1613795005897)(https://bkimg.cdn.bcebos.com/formula/ff89476bbf2a7904e9f986a8a1cbc9f2.svg)]
实际上误差函数的导数是:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CmJPFZYu-1613795005897)(https://bkimg.cdn.bcebos.com/formula/17254ab7c1a1a5803370ff1c02d86c62.svg)]
将正态函数换元,误差函数和“正态函数的积分”的关系是:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jrvE1GnA-1613795005898)(https://bkimg.cdn.bcebos.com/formula/f8591d38b6ef3fcf919663c180ce2520.svg)]
1、实际工作中,正态曲线下横轴上一定区间的面积(误差函数上下限之差)反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。
2、正态曲线下,要取到50%概率,横轴半区间长度为0.67448975σ(该值无法用初等方法求解,是由迭代法取得的近似值。)
横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8PCXAFEd-1613795005898)(https://bkimg.cdn.bcebos.com/formula/3a72e8f6918fb287fe010e9e6352fb39.svg)]
横轴区间(μ-2σ,μ+2σ)内的面积为95.449974%。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jUjXKdfJ-1613795005899)(https://bkimg.cdn.bcebos.com/formula/3b39097d946e2bcac7f18d59cd4b19f8.svg)]
横轴区间(μ-3σ,μ+3σ)内的面积为99.730020%。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HQLSQMNX-1613795005900)(https://bkimg.cdn.bcebos.com/formula/136c72bbc789ff6b44594a1162599fe8.svg)]
**“小概率事件”**和假设检验的基本思想: “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件不会发生,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。而对于产量更大,试验次数更多的大规模流水线产品,要达到“万无一失”(99.99%)就要取到4σ(99.9936%),而要达到更高的水平,则需要取5σ6σ长度的半区间,此时误差大约是0.6[ppm](https://baike.baidu.com/item/ppm/19249422)0.002ppm,这是工业生产中提出的“六西格玛(6σ)”原则(管理学书籍中提及的六西格玛原则的要求是3.4ppm,这个概率值所对的分布大约在半区间长度4.5σ,这是考虑到系统误差造成的均值偏移μ=1.5σ的情况)。
贝塔分布
贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称**Β分布,**是指一组定义在(0,1) 区间的连续概率分布。
定义
[编辑](javascript:😉
在概率论中,贝塔分布,也称B分布,是指一组定义在
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LKoB3KnN-1613795005901)(https://bkimg.cdn.bcebos.com/formula/943ef1d4fd8b90212d3edc8e6c16974a.svg)]
区间的连续概率分布,有两个参数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S7YVugJU-1613795005901)(https://bkimg.cdn.bcebos.com/formula/01466efc745d833bc275a6f58cda28a5.svg)]
。
1.概率密度函数
Β分布的概率密度函数是:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Jc8fxB6s-1613795005902)(https://bkimg.cdn.bcebos.com/formula/6b72394d178730e1676d40f3824c2f46.svg)]
其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RfWZvqMu-1613795005903)(https://bkimg.cdn.bcebos.com/formula/bbfa49c173e3eba4e526bf737bd5187a.svg)]
是Γ函数。随机变量X服从参数为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z1jJuYhG-1613795005904)(https://bkimg.cdn.bcebos.com/formula/21f07301a98a9e1520c8f2245588445e.svg)]
的Β分布通常写作
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PEo6HOr1-1613795005904)(https://bkimg.cdn.bcebos.com/formula/378a1a392477a8594aae8e0fccdf164d.svg)]
2.累积分布函数
Β分布的累积分布函数是 [1] :
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EnR820Ii-1613795005906)(https://bkimg.cdn.bcebos.com/formula/148b84a65437f3003938ed5fb18231d3.svg)]
其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pitVZJat-1613795005906)(https://bkimg.cdn.bcebos.com/formula/4b75102e1b7132c7298cb034f705d981.svg)]
是不完全Β函数,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vKBhl2E6-1613795005907)(https://bkimg.cdn.bcebos.com/formula/54f9244d8c2bf1e3de8a489527201a95.svg)]
是正则不完全贝塔函数。
性质
[编辑](javascript:😉
\1. 参数为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MPwXmRkb-1613795005910)(https://bkimg.cdn.bcebos.com/formula/21f07301a98a9e1520c8f2245588445e.svg)]
贝塔分布的众数是 [2] :
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l9eONlr4-1613795005911)(https://bkimg.cdn.bcebos.com/formula/5156dd1c0d05c9d165a9548656204849.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EgpGNYqC-1613795005912)(https://bkimg.cdn.bcebos.com/formula/bd50a32a3d009bfb9c7b55139c03f8cf.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5k1OsFdv-1613795005913)(https://bkimg.cdn.bcebos.com/formula/8600a5aba874b6906a439feb3c0907c9.svg)]
3.偏度是:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M3XUz9zr-1613795005914)(https://bkimg.cdn.bcebos.com/formula/cf0c9015f2c7278fcc8b3c882a33bae7.svg)]
4.峰度是:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Km3HkUU2-1613795005915)(https://bkimg.cdn.bcebos.com/formula/af4b6d16221eebfa6c015ab11059b10d.svg)]
或:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IrI6F0MN-1613795005916)(https://bkimg.cdn.bcebos.com/formula/0d4176e5792f901ec2ec2356efd7d35c.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fR1VDfwF-1613795005917)(https://bkimg.cdn.bcebos.com/formula/e9bb99fa1f711b457729bc7c9cbe5306.svg)]
阶矩是:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-84MMEelI-1613795005918)(https://bkimg.cdn.bcebos.com/formula/0e9b276a4bd48978bb88b94887627fa8.svg)]
其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-idE0RMZc-1613795005919)(https://bkimg.cdn.bcebos.com/formula/fb0fdf19d52969c899c6d3884514324b.svg)]
表示下降阶乘幂。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RHPWREp5-1613795005920)(https://bkimg.cdn.bcebos.com/formula/3ea7f14811110689f91b2b4916a60aaf.svg)]
阶矩还可以递归地表示为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-klKRGkwB-1613795005920)(https://bkimg.cdn.bcebos.com/formula/65bb7a70353fe854b3f61e1b4d266b6a.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Pd9xMusF-1613795005921)(https://bkimg.cdn.bcebos.com/formula/b36ce3c1430481273e3dde9328cbcb86.svg)]
\7. 给定两个Β分布随机变量,X~ Beta(α, β),Y~ Beta(α’, β’),X的微分熵为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PnkJyr3o-1613795005922)(https://bkimg.cdn.bcebos.com/formula/d42868a374d8597eb139c06367699704.svg)]
其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MweHmxLz-1613795005923)(https://bkimg.cdn.bcebos.com/formula/d7663313b9c84f72c69a945c12f7d207.svg)]
表示双伽玛函数。
\8. 联合熵为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HD9oFRTV-1613795005923)(https://bkimg.cdn.bcebos.com/formula/b2686a99dfc90fc57c1dd2e183a15b34.svg)]
9.KL散度其为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Rh4T3ct-1613795005924)(https://bkimg.cdn.bcebos.com/formula/46df7c0c35c9e4c38f4571016986b48e.svg)]
实例
[编辑](javascript:😉
空气中含有的气体状态的水分。表示这种水分的一种办法就是相对湿度。即含水量与空气的最大含水量(饱和含水量)的比值。我们听到的天气预告用语中就经常使用相对湿度这个名词。
相对湿度的值显然仅能出现于0到1之间(经常用百分比表示)。而空气为什么出现某个相对湿度显然具有随机性(可以利用最复杂原理),这些提示我们空气的相对湿度可能符合贝塔分布。
马淑红等人完成的《塔里木气候极值及其在油田工程设计中的应用》研究中(同名的书由气象出版社于1995年出版见138-142页),刘绍民等人分析了冬季塔里木盆地的日最大相对湿度和夏季日最小相对湿度。证实它们都符合贝塔分布。
协方差
协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
定义
[编辑](javascript:😉
在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 [1]
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差*Cov(X,Y)*定义为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eYclkhKo-1613795005924)(https://bkimg.cdn.bcebos.com/formula/32ab8c25259851a89027c916cc506e27.svg)]
从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。
协方差为0的两个随机变量称为是不相关的。
性质
[编辑](javascript:😉
若两个随机变量X和Y相互独立,则E[(X-E(X))(Y-E(Y))]=0,因而若上述数学期望不为零,则X和Y必不是相互独立的,亦即它们之间存在着一定的关系。 [2]
协方差与方差之间有如下关系:
D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
D(X-Y)=D(X)+D(Y)-2Cov(X,Y)
协方差与期望值有如下关系:
Cov(X,Y)=E(XY)-E(X)E(Y)。
协方差的性质:
(1)Cov(X,Y)=Cov(Y,X);
(2)Cov(aX,bY)=abCov(X,Y),(a,b是常数);
(3)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)。
(4)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pXT79HIY-1613795005925)(https://bkimg.cdn.bcebos.com/formula/2e944f15b479867135720c411e3d36dd.svg)]
由协方差定义,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。
协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入如下概念:
定义
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t14w7829-1613795005926)(https://bkimg.cdn.bcebos.com/formula/b2798c140d64f1903e57913e318ad10d.svg)]
称为随机变量X和Y的(Pearson)相关系数。
定义
若ρ**XY=0,则称X与Y不线性相关。
即ρ**XY=0的充分必要条件是Cov(X,Y)=0,亦即不相关和协方差为零是等价的。
定理
设ρ**XY是随机变量X和Y的相关系数,则有
(1)∣ρXY∣≤1;
(2)∣ρXY∣=1充分必要条件为P{Y=aX+b}=1,(a,b为常数,a≠0)
定义
设X和Y是随机变量,若E(X^k),k=1,2,…存在,则称它为X的k阶原点矩,简称k阶矩。
若E{[X-E(X)]k},k=1,2,…存在,则称它为X的k阶中心矩。
若E{(Xk)(Yp)},k、p=1,2,…存在,则称它为X和Y的k+p阶混合原点矩。
若E{[X-E(X)]k[Y-E(Y)]l },k、l=1,2,…存在,则称它为X和Y的k+l阶混合中心矩。
显然,X的数学期望E(X)是X的一阶原点矩,方差D(X)是X的二阶中心矩,协方差Cov(X,Y)是X和Y的二阶混合中心矩。
对于随机变量序列X1, …,X**n与Y1, …,Y**m,有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FwRwjj3f-1613795005926)(https://bkimg.cdn.bcebos.com/formula/fbba9321cc9b6ace3cd11d8c966b6a64.svg)]
对于随机变量序列X1, …,X**n,有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3cpT8nyP-1613795005927)(https://bkimg.cdn.bcebos.com/formula/f13b9f70af663153711a740cd15376db.svg)]
Pearson相关系数
Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
相关系数简介
[编辑](javascript:😉
如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数。
其计算公式为:
值域等级解释
[编辑](javascript:😉
pearson相关系数衡量的是线性相关关系。若r=0,只能说x与y之间无线性相关关系,不能说无相关关系。相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
对于x,y之间的相关系数r :
当r大于0小于1时表示x和y正相关关系
当r大于-1小于0时表示x和y负相关关系
当r=1时表示x和y完全正相关,r=-1表示x和y完全负相关
当r=0时表示x和y不相关
协方差矩阵
在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差,是从标量随机变量到高维度随机向量的自然推广。
概念
[编辑](javascript:😉
设
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SzYwSEBg-1613795005928)(https://bkimg.cdn.bcebos.com/formula/2742602f8b608b1bdb2559c8b995075c.svg)]
为n维随机变量,称矩阵
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QlOAx4sV-1613795005929)(https://bkimg.cdn.bcebos.com/formula/37694c40dd446b8da1fdcfee6a4a3f0b.svg)]
为n维随机变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oljHOes5-1613795005929)(https://bkimg.cdn.bcebos.com/formula/9f7d1d2e6f98698b18cf0939756901ac.svg)]
的协方差矩阵(covariance matrix),也记为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b7BWXyBW-1613795005930)(https://bkimg.cdn.bcebos.com/formula/18e926c1ed91c624a539de25a62429da.svg)]
,其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oKEJN6Ac-1613795005931)(https://bkimg.cdn.bcebos.com/formula/a2a887a3956fc9bf7b4b17eeb78e9198.svg)]
为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uSK92Txs-1613795005931)(https://bkimg.cdn.bcebos.com/formula/9f7d1d2e6f98698b18cf0939756901ac.svg)]
的分量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5vkqDR89-1613795005932)(https://bkimg.cdn.bcebos.com/formula/1c6d8364b7eb5a042416c86772456e5a.svg)]
和
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kEPQtP5C-1613795005932)(https://bkimg.cdn.bcebos.com/formula/ad041324e5b76b85746cdd98f7e4d6ba.svg)]
的协方差(设它们都存在)。
例如,二维随机变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sdcW3d6m-1613795005933)(https://bkimg.cdn.bcebos.com/formula/4c70680c60fb951a029d45ca4598d920.svg)]
的协方差矩阵为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jWa2qafS-1613795005934)(https://bkimg.cdn.bcebos.com/formula/b28e723b30e0f878d6446b1008a8005b.svg)]
其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6O0ngpZE-1613795005934)(https://bkimg.cdn.bcebos.com/formula/96d0fca2decb2d3860992f557eca9e3c.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AeHhYpZ9-1613795005935)(https://bkimg.cdn.bcebos.com/formula/3b32293145e0353f91ec785fab1e8c92.svg)]
由于
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PDfsMdub-1613795005935)(https://bkimg.cdn.bcebos.com/formula/164cf029f5f0a69addd7524e99e826ad.svg)]
,所以协方差矩阵为对称非负定矩阵。 [2]
性质
[编辑](javascript:😉
协方差矩阵具有如下性质:
(1)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AsZtHYI4-1613795005936)(https://bkimg.cdn.bcebos.com/formula/f801b671ce638015b32d9f0d1a54ce86.svg)]
.
(2)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-36kWJA0n-1613795005936)(https://bkimg.cdn.bcebos.com/formula/f5d8e9d080a2f30dd75845a561d7dfc4.svg)]
,其中A是矩阵,b是向量。
(3)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r1BjpM2l-1613795005937)(https://bkimg.cdn.bcebos.com/formula/18ad2348ee97d5976e149293f6c3930b.svg)]
。 [3]
应用
[编辑](javascript:😉
协方差矩阵可用来表示多维随机变量的概率密度,从而可通过协方差矩阵达到对多维随机变量的研究。以二维随机变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yMuNoQHP-1613795005938)(https://bkimg.cdn.bcebos.com/formula/4c70680c60fb951a029d45ca4598d920.svg)]
为例,由于
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jw7y5ndo-1613795005939)(https://bkimg.cdn.bcebos.com/formula/d4323e08df5396eb5b0a460a2bb8c85f.svg)]
引入矩阵
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eLS39cMM-1613795005940)(https://bkimg.cdn.bcebos.com/formula/3199cba9309d200b95d9a23d191f696e.svg)]
,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YbOydQj5-1613795005940)(https://bkimg.cdn.bcebos.com/formula/4c85d0ec0831e12c3c313a42bfd0c575.svg)]
及
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qdvtt4t1-1613795005941)(https://bkimg.cdn.bcebos.com/formula/4c70680c60fb951a029d45ca4598d920.svg)]
的协方差矩阵
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cUF1AbeL-1613795005942)(https://bkimg.cdn.bcebos.com/formula/921c84370dc3df85da18835149261465.svg)]
由此可得
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MDvERUij-1613795005942)(https://bkimg.cdn.bcebos.com/formula/dbc7f3d9c4d540abbf18b27f72928536.svg)]
由于
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rvfZFT9e-1613795005943)(https://bkimg.cdn.bcebos.com/formula/61cc10cb90234d44f2f7eb5af950d063.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eaK64Knh-1613795005944)(https://bkimg.cdn.bcebos.com/formula/4316733615bbf0563f5d9a08da9b59e1.svg)]
于是
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xD5jdQbM-1613795005944)(https://bkimg.cdn.bcebos.com/formula/4c70680c60fb951a029d45ca4598d920.svg)]
的概率密度
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jhFjmrm9-1613795005945)(https://bkimg.cdn.bcebos.com/formula/c26c1836a38a44321a375ce52a711e60.svg)]
此式可以推广到n维正态分布的情形。 [2]
切比雪夫定理
设X是一个随机变数取区间(0,∞)上的值,F(x)是它的分布函数,设Xα(α >0)的数学期望M(Xα )存在,a>0,则不等式成立。这叫做切比雪夫定理,或者切比雪夫不等式。 [1]
切比雪夫不等式的提出
[编辑](javascript:😉
19世纪俄国数学家切比雪夫研究统计规律中,论证并用标准差表达了一个不等式,这个不等式具有普遍的意义,被称作切比雪夫定理,其大意是:
任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m2,其中m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:
所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内 [2] 。
内容
[编辑](javascript:😉
切比雪夫不等式可以使人们在随机变量X的分布未知的情况下,对事件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uhh1MR8F-1613795005946)(https://bkimg.cdn.bcebos.com/formula/1b7768fc2ad86d5fa346ef7a4e24c5c8.svg)]
概率作出估计。 [3]
定理
设随机变量X具有数学期望
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vMPa1Jlw-1613795005946)(https://bkimg.cdn.bcebos.com/formula/9f7676e74b5e59125248a36c41df7144.svg)]
,方差
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jvWfD5sV-1613795005947)(https://bkimg.cdn.bcebos.com/formula/5bcb0fee353bd7fe67f95e9937831244.svg)]
则对任意正数ε,不等式
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TkUf204g-1613795005948)(https://bkimg.cdn.bcebos.com/formula/b4bcdb16d63c8bb637f95e0c8779bed4.svg)]
或
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yNhRDxeJ-1613795005949)(https://bkimg.cdn.bcebos.com/formula/cb1871ad766eb3e302097d5fff66d4ae.svg)]
成立。
注意:应用切比雪夫不等式必须满足E(X)和D(X)存在且有限这一条件。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YvaOTFj8-1613795005950)(https://bkimg.cdn.bcebos.com/formula/f58d1d82e599235099f1f3e4e1a089a9.svg)]
若对于任意的ε>O,当n很大时,事件“
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KB4J6773-1613795005950)(https://bkimg.cdn.bcebos.com/formula/f58d1d82e599235099f1f3e4e1a089a9.svg)]
”的概率接近于0,则称随机变量序列{Xn}依概率收敛于a [4] 。正因为是概率,所以不排除小概率事件“”发生。所以,依概率收敛是不确定现象中关于收敛的一种说法,记为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bmnSMCCl-1613795005951)(https://bkimg.cdn.bcebos.com/formula/194b5770b59244a017a3c1653be75f70.svg)]
。 [3]
切比雪夫定理
设X1,X2,…,Xn,…是相互独立的随机变量序列,数学期望E(Xi)和方差D(Xi)都存在(i=1,2,…),且D(Xi)<C(i=l,2,…),则对任意给定的ε>0,有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HKHyjUDF-1613795005952)(https://bkimg.cdn.bcebos.com/formula/655cb94706a77ae4eca260ee626e40f5.svg)]
特别地:X1,X2,…,Xn,…是相互独立的随机变量序列,数学期望E(Xi)=μ和方差D(Xi)=σ2(i=1,2,…),则对任意给定的ε>0,有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-veErbkEd-1613795005953)(https://bkimg.cdn.bcebos.com/formula/655cb94706a77ae4eca260ee626e40f5.svg)]
即 [3]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ev4TlhtC-1613795005954)(https://bkimg.cdn.bcebos.com/formula/818887aa9eef3897a36b319302ca1b4e.svg)]
切比雪夫定理的这一推论,使我们关于算术平均值的法则有了理论根据.设测量某一物理量a,在条件不变的情况下重复测量n次,得到的结果X1,X2,…,Xn是不完全相同的,这些测量结果可看作是n个独立随机变量X1,X2,…,Xn的试验数值,并且有同一数学期望a。于是,按大数定理j可知,当n足够大时,下式成立,即
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zQaMznoE-1613795005954)(https://bkimg.cdn.bcebos.com/formula/5caeacbf5d94cfc4ae61352ae7cfef39.svg)]
上式表明,n足够大时,把n次测量结果的算术平均值作为a的近似值,所产生的误差是很小的。
大数定律
概率论历史上第一个极限定理属于伯努利,后人称之为“大数定律”。概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
大数定律分为弱大数定律和强大数定律。
定理定义
[编辑](javascript:😉
定义
大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数“定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理,如伯努利大数定理 [2] 。
重要定律
大数定律有若干个表现形式。这里仅介绍高等数学概率论要求的常用的三个重要定律:
- 切比雪夫大数定理
设
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vgfbcPgR-1613795005955)(https://bkimg.cdn.bcebos.com/formula/3aa5463bcf195359b3f9f075ec459090.svg)]
,…是一列相互独立的随机变量(或者两两不相关),他们分别存在期望
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TXBG5myz-1613795005956)(https://bkimg.cdn.bcebos.com/formula/84a9e49999d145b01378d3aa17d799a1.svg)]
和方差
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9szjjeav-1613795005957)(https://bkimg.cdn.bcebos.com/formula/361f99b2c0536aca0c1252ce58aacac6.svg)]
。若存在常数C使得:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BsHePVpm-1613795005957)(https://bkimg.cdn.bcebos.com/formula/7d686fe7e5681b0e305f3c0caea757a8.svg)]
则对任意小的正数 ε,满足公式一:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s9BthfS6-1613795005958)(https://bkimg.cdn.bcebos.com/formula/d4b4cfab41146dfd426bfb4c8323ef56.svg)]
将该公式应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
特别需要注意的是,切比雪夫大数定理并未要求
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P1fi0Ys2-1613795005959)(https://bkimg.cdn.bcebos.com/formula/3aa5463bcf195359b3f9f075ec459090.svg)]
同分布,相较于后面介绍的伯努利大数定律和辛钦大数定律更具一般性 [1] 。
- 伯努利大数定律
设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为p,则对任意正数ε,有公式二:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yw3glV8B-1613795005959)(https://bkimg.cdn.bcebos.com/formula/6db89b8b8514537d346bba03b2ddecfc.svg)]
该定律是切比雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此 [1] 。
辛钦大数定律:常用的大数定律
设
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zUidREzd-1613795005961)(https://bkimg.cdn.bcebos.com/formula/0378776cd8a9c6d8ab06629018d2fa28.svg)]
为独立同分布的随机变量序列,若
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CLhar77R-1613795005961)(https://bkimg.cdn.bcebos.com/formula/a44a8cf6bc7200d40a037381c20d1222.svg)]
的数学期望存在,则服从大数定律:
即对任意的ε>0,有公式三 [1] :
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bJXfasYQ-1613795005962)(https://bkimg.cdn.bcebos.com/formula/f089582e30c7157969cc4bfa11d0d3ce.svg)]
四种证法
对于一般人来说,大数定律的非严格表述是这样的:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rhSXSc1y-1613795005963)(https://bkimg.cdn.bcebos.com/formula/da2cc7c7994e12bc58816a19a5b87f3c.svg)]
是独立同分布随机变量序列,期望为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uln4DVuL-1613795005964)(https://bkimg.cdn.bcebos.com/formula/e2d18aae1b9bd548c8452ca0f9903fa9.svg)]
,则
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IsPXpdYX-1613795005964)(https://bkimg.cdn.bcebos.com/formula/1371bca387257285005aeaffeff8a8d5.svg)]
收敛到u。
如果说“弱大数定律”,上述收敛是指依概率收敛(in probability),如果说“强大数定律”,上述收敛是指几乎必然收敛(almost surely/with probability one)。
大数定律通俗一点来讲,就是样本数量很大的时候,样本均值和真实均值充分接近。这一结论与中心极限定理一起,成为现代概率论、统计学、理论科学和社会科学的基石。(有趣的是,虽然大数定律的表述和证明都依赖现代数学知识,但其结论最早出现在微积分出现之前。而且在生活中,即使没有微积分的知识也可以应用。例如,没有学过微积分的学生也可以轻松利用excel或计算器计算样本均值等统计量,从而应用于社会科学。)
最早的大数定律的表述可以追溯到公元1500年左右的意大利数学家Cardano。1713年,著名数学家James (Jacob) Bernouli正式提出并证明了最初的大数定律。不过当时现代概率论还没有建立起来,测度论、实分析的工具还没有出现,因此当时的大数定律是以“独立事件的概率”作为对象的。后来,历代数学家如Poisson(“大数定律”的名字来自于他)、Chebyshev、Markov、Khinchin(“强大数定律”的名字来自于他)、Borel、Cantelli等都对大数定律的发展做出了贡献。直到1930年,现代概率论奠基人、数学大师Kolmogorov才真正证明了最后的强大数定律。
下面均假设
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2roPPpsN-1613795005965)(https://bkimg.cdn.bcebos.com/formula/da2cc7c7994e12bc58816a19a5b87f3c.svg)]
是独立同分布随机变量序列,数学期望为u。独立同分布随机变量和的大数定律常有的表现形式有以下几种 [2] 。
初等概率
(1) 带方差的弱大数定律:若
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2o4Xlxv4-1613795005966)(https://bkimg.cdn.bcebos.com/formula/d036617ea9611820a09db0efca21e9a3.svg)]
小于无穷,则
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TpmbKGs3-1613795005967)(https://bkimg.cdn.bcebos.com/formula/ac316d8649da9a349cbe4b3b1333272f.svg)]
依概率收敛到0。
证明方法:Chebyshev不等式即可得到。这个证明是Chebyshev给出的。
(2) 带均值的弱大数定律:若u存在,则
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Eocy6S4V-1613795005967)(https://bkimg.cdn.bcebos.com/formula/ac316d8649da9a349cbe4b3b1333272f.svg)]
依概率收敛到0。
证明方法:用Taylor展开特征函数,证明其收敛到常数,得到依分布收敛,然后再用依分布收敛到常数等价于依概率收敛 [2] 。
现代概率
(3) 精确弱大数定律:若xP(|X|>x) 当x趋于无穷时收敛到0,则
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W2yWO1YE-1613795005968)(https://bkimg.cdn.bcebos.com/formula/ac316d8649da9a349cbe4b3b1333272f.svg)]
依概率收敛到0,其中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IUkDSeL6-1613795005970)(https://bkimg.cdn.bcebos.com/formula/b375243960f3ad6a079d9ae4c226be24.svg)]
。(在这个定理里,不需要u存在。)
证明方法:需要用到截断随机变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xjgcKaVq-1613795005971)(https://bkimg.cdn.bcebos.com/formula/7248128298a07735230af9d025c2d651.svg)]
. 然后要用的三角阵列的依概率收敛定理和Fubini定理分析积分变换。
(4) 带4阶矩的强大数定律:若
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oJcrUY5g-1613795005971)(https://bkimg.cdn.bcebos.com/formula/4606bcbd0ee4534b9f13c73ba5fbdafc.svg)]
小于无穷,则
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UN272sbV-1613795005972)(https://bkimg.cdn.bcebos.com/formula/ac316d8649da9a349cbe4b3b1333272f.svg)]
几乎必然收敛到0.
证明方法:与(1)类似,先用Chebyshev不等式。然后因为4阶矩的存在,得到
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6gc8ts4h-1613795005972)(https://bkimg.cdn.bcebos.com/formula/025d93c6eaa70779969e01bc1dc20003.svg)]
对任意常数t的收敛速度足够快,满足Borel-Cantelli的要求,用Borel-Cantelli引理得到大数定律。
(5) 带方差的强大数定律:若
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gmYgl2XZ-1613795005973)(https://bkimg.cdn.bcebos.com/formula/337caaed8d1cd435a837ac56875c387e.svg)]
小于无穷,则
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wmUicSIg-1613795005974)(https://bkimg.cdn.bcebos.com/formula/ac316d8649da9a349cbe4b3b1333272f.svg)]
几乎必然收敛到0.
证明方法:用Kolgoromov三级数定理和Kronecker定理。
(6) 精确强大数定律:若u存在,则
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3YhPEknl-1613795005974)(https://bkimg.cdn.bcebos.com/formula/ac316d8649da9a349cbe4b3b1333272f.svg)]
几乎必然收敛到0.
证明方法:这个大数定律的证明确实有几种不同的方法。最早的证明是由数学大师Kolmogorov给出的。Durrett (2010)的书上用的是Etemadi (1981)的方法,需要截断X,用到现代概率论的知识如Borel-Cantelli引理、Kolmogorov三级数定理、Fubini定理等。(感谢读者指出,Durrett的书在倒向鞅一章中给出了大数定律的倒向鞅方法证明,只需要用到倒向鞅的知识和Hewitt-Savage 0-1律,不过这也是现代概率论的知识。)
此外,还有很多不同的大数定律,不同分布的,不独立的序列等。定律也不一定是关于随机变量的,也可以是关于随机函数的,甚至随机集合的等等。以数学家命名的也有Khinchin大数定律(不独立序列的强大数定律)、Chebyshev大数定律(弱大数定律(1))、Poisson大数定律(不同概率的随机事件序列的大数定律)、Bernoulli大数定律(随机事件的大数定律)、Kolmogorov大数定律(强大数定律(6))等等……
以上(1-6)是常见的独立同分布序列的大数定律。其中,(3)和(6)是最严格也是最精妙的结果,证明所涉及的高等概率论知识也最多。它们成立的条件不仅是充分条件,也是必要条件,因此它们算是完结了大数定律的发展。大数定律的发展符合数学的一般规律:想证明某一结论,条件越弱(弱大数定律:2阶矩条件->1阶矩条件->没矩条件;强大数定律:4阶矩条件→2阶矩条件→1阶矩条件),证明也就变得越难。
虽然只有(3)和(6)是最精确的结果,但是必须认识到,数学的发展是一个循序渐进的过程,如果没有前面那些更强条件下的定理,也无法得到最后的大数定律。
从最开始的自然界观察到大数定律的存在,到最后证明最终形式,历时数百年,现代概率论也在这个过程中建立起来。此外,虽然(3)和(6)比前面的(1)和(5)强很多,但是(1)和(5)的条件仅仅是2阶矩(或方差)的存在,因此他们在几百年间早就被广泛使用,对于一般的社会科学问题、统计问题等已经足足够用了。
总之,大数定律包含概率论里核心的知识。“大数定律的四种证法”尽管表述模糊,原意也充满调侃,但并不是真如《孔乙己》里"回字四种写法"所暗示的那样迂腐或毫无价值。作为概率或统计专业的研究生,弄懂这些定理表述的区别和证明方法的区别和联系,了解前代数学家的工作,对于深刻理解现代概率论是很有好处的。当然,任何人也不应去死记硬背这些证法,只要能理解、弄清其中微妙即可 [2] 。
中心极限定理
中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。最早的中心极限定理是讨论重点,伯努利试验中,事件A出现的次数渐近于正态分布的问题。 [1]
定义
[编辑](javascript:😉
独立同分布的中心极限定理
设随机变量X1,X2,…Xn,…独立同分布,并且具有有限的数学期望和方差:E(Xi)=μ,D(Xi)=σ20(k=1,2…),则对任意x,分布函数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kTqmekY4-1613795005975)(https://bkimg.cdn.bcebos.com/formula/9fe9f6e274d61eba22c04fe7598cb868.svg)]
满足
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5kvHHQAD-1613795005975)(https://bkimg.cdn.bcebos.com/formula/5f1daf6a165afaeadbb086ffc9f2eb11.svg)]
该定理说明,当n很大时,随机变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-71lA6CGx-1613795005976)(https://bkimg.cdn.bcebos.com/formula/a63a76f483d184f271bf81393a5c8036.svg)]
近似地服从标准正态分布N(0,1)。因此,当n很大时,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZTJpRY6e-1613795005976)(https://bkimg.cdn.bcebos.com/formula/465895ec4e355ddeba87ca23ef9d88b0.svg)]
近似地服从正态分布N(nμ,nσ2).该定理是中心极限定理最简单又最常用的一种形式,在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。这种方法在数理统计中用得很普遍,当处理大样本时,它是重要工具。 [2]
棣莫佛-拉普拉斯定理
设随机变量X(n=1,2,…,)服从参数为n,p(0<p<1)的二项分布,则对于任意有限区间(a,b)有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9tok3OAi-1613795005977)(https://bkimg.cdn.bcebos.com/formula/09195c986c4ef13fadeb01bf34bdacdb.svg)]
该定理表明,正态分布是二项分布的极限分布,当数充分大时,我们可以利用上式来计算二项分布的概率。 [2]
不同分布的中心极限定理
设X1,X2,…Xn是一列独立随机变量,它们的概率密度分别为
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mSUYTayh-1613795005977)(https://bkimg.cdn.bcebos.com/formula/30f2b3721b9ead1e97b691c89b785247.svg)]
,并有E(Xk)=μk,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V1pf8wig-1613795005978)(https://bkimg.cdn.bcebos.com/formula/78ef0c88723a503c5547c6c13fa636c1.svg)]
,(k=1,2,…),令:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gLg43JLb-1613795005978)(https://bkimg.cdn.bcebos.com/formula/a944faf1a9bbf08c412ea0e7f75a6c6a.svg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n3KM8thc-1613795005979)(https://bkimg.cdn.bcebos.com/formula/012ff90ad60c9da63689c04b1347d3ee.svg)]
若对任意正数τ,有
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fUdXcwCG-1613795005980)(https://bkimg.cdn.bcebos.com/formula/3e0f6042b3b397f2d6ca38932042f321.svg)]
对任意x,随机变量Yn的分布函数Fn(x),满足
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cZYhyTbo-1613795005980)(https://bkimg.cdn.bcebos.com/formula/f320453d40f7fa86e6d7e6d1a2f170ff.svg)]
该定理说明:所研究的随机变量如果是有大量独立的而且均匀的随机变量相加而成,那么它的分布将近似于正态分布。
最大似然估计
最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法。最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。
原理
[编辑](javascript:😉
给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为f**D,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,通过利用f**D,我们就能计算出其概率:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1CHrtBN0-1613795005982)(https://bkimg.cdn.bcebos.com/formula/b8585932ec03431bfb99e8bc9e71b0e5.svg)]
但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn,然后用这些采样数据来估计θ。
一旦我们获得,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于 θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。
要在数学上实现最大似然估计法,我们首先要定义可能性:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N6PayXau-1613795005983)(https://bkimg.cdn.bcebos.com/formula/10879047f080bb0c3c4a633857c9a145.svg)]
并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。 [1]
性质
[编辑](javascript:😉
泛函不变性
如果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dbChZ3qL-1613795005984)(https://bkimg.cdn.bcebos.com/formula/1b3400f09760d7ea00f0b1714385afa7.svg)]
是 θ的一个最大似然估计,则当函数α =g(θ)具有单值反函数时,
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-56AuL0gf-1613795005985)(https://bkimg.cdn.bcebos.com/formula/30b0f2d5fe888ce407223288cd3353d7.svg)]
是α =g(θ)的一个最大似然估计。 [2]
渐近线行为
最大似然估计函数在采样样本总数趋于无穷的时候达到最小方差(其证明可见于Cramer-Rao lower bound)。当最大似然估计非偏时,等价的,在极限的情况下我们可以称其有最小的均方差。对于独立的观察来说,最大似然估计函数经常趋于正态分布。 [1]
偏差
最大似然估计的非偏估计偏差是非常重要的。考虑这样一个例子,标有1到n的n张票放在一个盒子中。从盒子中随机抽取票。如果n是未知的话,那么n的最大似然估计值就是抽出的票上标有的n,尽管其期望值的只有(n + 1) / 2。 为了估计出最高的n值,我们能确定的只能是n值不小于抽出来的票上的值。 [1]
最大似然估计的一般求解步骤
[编辑](javascript:😉
基于对似然函数L(θ)形式(一般为连乘式且各因式>0)的考虑,求θ的最大似然估计的一般步骤如下:
(1)写出似然函数
总体X为离散型时:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YBAKDHAj-1613795005986)(https://bkimg.cdn.bcebos.com/formula/6a1d02c5b9c843affb0dbd114d4c5e50.svg)]
总体X为连续型时:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KunkzGQx-1613795005987)(https://bkimg.cdn.bcebos.com/formula/93c0a560786d51ceb45a966017226b51.svg)]
(2)对似然函数两边取对数有
总体X为离散型时:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HUInsytM-1613795005988)(https://bkimg.cdn.bcebos.com/formula/10d6f4a0aa95d6f43c0d00337198fe3d.svg)]
总体X为连续型时:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wNtGHEfi-1613795005989)(https://bkimg.cdn.bcebos.com/formula/18eec2867cad0719b88aa85f3dce25dc.svg)]
(3)对
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KRMAA2cI-1613795005990)(https://bkimg.cdn.bcebos.com/formula/b971eeefaf3de15ffebda311893d6b70.svg)]
求导数并令之为0:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9DCWcU9d-1613795005991)(https://bkimg.cdn.bcebos.com/formula/138a1fe311759c96a4e5a5f64b8edd55.svg)]
此方程为对数似然方程。解对数似然方程所得,即为未知参数 的最大似然估计值。 [1]
过拟合
过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
概念
[编辑](javascript:😉
为了得到一致假设而使假设变得过度严格称为过拟合。
定义
给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 [1]
判断方法
一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。 [2]
图例
例:如图1所示为不同的分类方式(分类器)
可以看出在a中虽然完全的拟合了样本数据,但对于b中的测试数据分类准确度很差。而c虽然没有完全拟合样本数据,但在d中对于测试数据的分类准确度却很高。过拟合问题往往是由于训练数据少等原因造成的。
常见原因
[编辑](javascript:😉
(1)建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;
(2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;
(3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立;
(4)参数太多,模型复杂度过高;
(5)对于决策树模型,如果我们对于其生长没有合理的限制,其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集。
(6)对于神经网络模型:a)对样本数据可能存在分类决策面不唯一,随着学习的进行,,BP算法使权值可能收敛过于复杂的决策面;b)权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征。
解决方法
[编辑](javascript:😉
(1)在神经网络模型中,可使用权值衰减的方法,即每次迭代过程中以某个小因子降低每个权值。
(2)选取合适的停止训练标准,使对机器的训练在合适的程度;
(3)保留验证数据集,对训练成果进行验证;
(4)获取额外数据进行交叉验证;
(5)正则化,即在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。
引用百度百科