1.概率与直观
(1)先看一个例子,统计数字的概率,给定某正整数N,统计从
1
!
1!
1!到
N
!
N!
N!的所有数中,首位数字出现1,2,3,4,5,6,7,8,9(9点分布)的频率,并画出曲线。
这里画出了n=100,1000
代码如下:
import matplotlib.pyplot as plt
# 求首位数
def first_digital(x):
while x >= 10:
# 整除用//,精确除法用/
x = x // 10
return x
def n_frequency(n):
k = 1
frequency = [0] * 10
for i in range(1, n):
k = k * i
m = first_digital(k)
frequency[m] += 1
return frequency
if __name__=="__main__":
frequency1=n_frequency(100)
frequency2=n_frequency(1000)
ax1 = plt.subplot(121)
ax2 = plt.subplot(122)
ax1.plot(frequency1,'r--',linewidth=2)
ax1.plot(frequency1,'go',markersize=8)
ax1.set_xticks(range(0,10))
ax1.grid(True)
ax2.plot(frequency2, 'r--', linewidth=2)
ax2.plot(frequency2, 'go', markersize=8)
ax2.set_xticks(range(0, 10))
ax2.grid(True)
plt.show()
运行结果
计算可以得到1出现的概率大概是30%,满足本福特定律,并不是我们直观想象的1/9。
本福特定律简介:是指在日常生活中的一组数据(阶乘,素数数列,斐波那楔数列,住宅地址号码等)中,以1为首的数据大概占数组总数的三成,该规律可以用来经济数据反欺诈,投票数据反欺诈。
(2)这里再给出一个例子,商品推荐,假设在某推荐场景中,经计算A和B两个商品与当前访问用户的匹配度分别为0.8分和0.2分,系统将随机为A生成一个均匀分布于0到0.8的最终得分,为B生成一个均匀分布于0到0.2的最终得分,试计算最终B的分数大于A的分数的概率。
解:A=B的直线上方区域,即为B>A的情况。
S
蓝
色
=
0.02
S_{蓝色}=0.02
S蓝色=0.02
S
矩
形
=
0.16
S_{矩形}=0.16
S矩形=0.16 则p=0.02/0.16=0.125
(3)概率公式
条件概率:
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
P(A|B)=\frac{P(AB)}{P(B)}
P(A∣B)=P(B)P(AB) 则
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
P(AB)=P(A|B)P(B)
P(AB)=P(A∣B)P(B)
全概率公式:
P
(
A
)
=
∑
i
=
1
n
P
(
A
∣
B
i
)
P
(
B
i
)
P(A)=\sum_{i=1}^{n}P(A|B_i)P(B_i)
P(A)=∑i=1nP(A∣Bi)P(Bi)
贝叶斯公式:
P
(
B
i
∣
A
)
=
P
(
A
B
i
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
i
=
1
n
P
(
A
∣
B
i
)
P
(
B
i
)
P(B_i|A)=\frac{P(AB_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_{i=1}^{n}P(A|B_i)P(B_i)}
P(Bi∣A)=P(A)P(ABi)=∑i=1nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
贝叶斯用法:
假定某系统中的若干样本x,计算该系统的参数,即
P
(
θ
∣
x
)
=
P
(
x
∣
θ
)
P
(
θ
)
∑
i
=
1
n
P
(
x
∣
θ
i
)
P
(
θ
i
)
P(\theta|x)=\frac{P(x|\theta)P(\theta)}{\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)}
P(θ∣x)=∑i=1nP(x∣θi)P(θi)P(x∣θ)P(θ)
其中:
P
(
θ
)
P(\theta)
P(θ)为没有数据支持下,
θ
\theta
θ发生的概率,即先验概率;
P
(
θ
∣
x
)
P(\theta|x)
P(θ∣x)为在数据支持下,
θ
\theta
θ发生的概率,即后验概率;
P
(
x
∣
θ
)
P(x|\theta)
P(x∣θ)为似然函数,为给定某参数
θ
\theta
θ的概率分布。
2.常见概率分布
(1)两点分布
已经随机变量X的分布律为:
X
1
0
p
p
1
−
p
\begin{array}{c|clr} X &\text{1} & \text{0} \\ \hline p & p & 1-p\\ \end{array}
Xp1p01−p
则有
E
(
X
)
=
1
⋅
p
+
0
⋅
(
1
−
p
)
=
p
.
E(X)=1 \cdot p + 0 \cdot (1-p)=p.
E(X)=1⋅p+0⋅(1−p)=p.
D
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
=
1
2
⋅
p
+
0
2
(
1
−
p
)
−
p
2
=
p
q
.
D(X)=E(X^2)-[E(X)]^2=1^2\cdot p+0^2(1-p)-p^2=pq.
D(X)=E(X2)−[E(X)]2=12⋅p+02(1−p)−p2=pq.
(2)二项分布
设随机变量X服从参数为n,p的二项分布,设
X
i
X_i
Xi表示第
i
i
i次试验中事件A发生的次数,
i
=
1
,
2
,
⋅
⋅
⋅
,
n
i=1,2,\cdot \cdot \cdot,n
i=1,2,⋅⋅⋅,n
则
X
=
∑
i
=
1
n
X
i
X=\sum_{i=1}^{n}X_i
X=∑i=1nXi,显然,
X
i
X_i
Xi相互独立均服从参数为
p
p
p的
0
−
1
0-1
0−1分布,所以
E
(
X
)
=
∑
i
=
1
n
E
(
X
i
)
=
n
p
.
E(X)=\sum_{i=1}^{n}E(X_i)=np.
E(X)=∑i=1nE(Xi)=np.
D
(
X
)
=
∑
i
=
1
n
D
(
X
i
)
=
n
p
(
1
−
p
)
.
D(X)=\sum_{i=1}^{n}D(X_i)=np(1-p).
D(X)=∑i=1nD(Xi)=np(1−p).
(3)泊松分布
设
X
∼
π
(
λ
)
X \sim \pi (\lambda)
X∼π(λ),且分布律为
P
(
X
=
k
)
=
λ
k
k
!
e
−
λ
P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}
P(X=k)=k!λke−λ
则
E
(
X
)
=
∑
k
=
0
∞
k
λ
k
k
!
e
−
λ
=
e
−
λ
∑
k
=
0
∞
k
λ
k
k
!
=
e
−
λ
∑
k
=
0
∞
λ
k
−
1
(
k
−
1
)
!
⋅
λ
=
λ
e
−
λ
⋅
e
λ
=
λ
E(X)=\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}\cdot\lambda=\lambda e^{-\lambda}\cdot e^\lambda=\lambda
E(X)=∑k=0∞kk!λke−λ=e−λ∑k=0∞kk!λk=e−λ∑k=0∞(k−1)!λk−1⋅λ=λe−λ⋅eλ=λ
同理可以求得
D
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
=
λ
D(X)=E(X^2)-[E(X)]^2=\lambda
D(X)=E(X2)−[E(X)]2=λ
(4)均匀分布
设
X
∼
U
(
a
,
b
)
X \sim U (a,b)
X∼U(a,b)的均匀分布,其概率密度为
f
(
x
)
=
{
1
b
−
a
,
a
<
x
<
b
,
0
,
其
他
.
f(x)=\begin{cases} \frac{1}{b-a}, & a<x<b,\\ 0, & 其他. \end{cases}
f(x)={b−a1,0,a<x<b,其他.
E
(
X
)
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
=
∫
a
b
x
1
b
−
a
d
x
=
1
2
(
a
+
b
)
E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{a}^{b}x\frac{1}{b-a}dx=\frac{1}{2}(a+b)
E(X)=∫−∞+∞xf(x)dx=∫abxb−a1dx=21(a+b)
D
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
=
∫
a
b
x
2
1
b
−
a
d
x
−
(
1
a
+
b
)
2
=
(
b
−
a
)
2
12
D(X)=E(X^2)-[E(X)]^2=\int_{a}^{b}x^2\frac{1}{b-a}dx-(\frac{1}{a+b})^2=\frac{(b-a)^2}{12}
D(X)=E(X2)−[E(X)]2=∫abx2b−a1dx−(a+b1)2=12(b−a)2
(5)指数分布
设随机变量X服从指数分布,其概率密度函数为
f
(
x
)
=
{
1
θ
e
−
x
/
θ
,
x
>
0
,
0
,
x
≤
0.
其
中
θ
>
0.
f(x)=\begin{cases} \frac{1}{\theta}e^{-x/\theta}, & x>0,\\ 0, & x\leq0. \end{cases} 其中\theta>0.
f(x)={θ1e−x/θ,0,x>0,x≤0.其中θ>0.
则有
E
(
X
)
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
=
∫
0
+
∞
x
1
θ
e
−
x
θ
d
x
=
−
x
e
−
x
θ
∣
0
+
∞
+
∫
0
+
∞
e
−
x
θ
d
x
=
θ
E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{0}^{+\infty}x\frac{1}{\theta}e^{-\frac{x}{\theta}}dx=-xe^{-\frac{x}{\theta}}|_{0}^{+\infty}+\int_{0}^{+\infty}e^{-\frac{x}{\theta}}dx=\theta
E(X)=∫−∞+∞xf(x)dx=∫0+∞xθ1e−θxdx=−xe−θx∣0+∞+∫0+∞e−θxdx=θ
D
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
=
∫
0
+
∞
x
2
1
θ
e
−
x
θ
d
x
−
θ
2
=
2
θ
2
−
θ
2
=
θ
2
D(X)=E(X^2)-[E(X)]^2=\int_{0}^{+\infty}x^2\frac{1}{\theta}e^{-\frac{x}{\theta}}dx-\theta^2=2\theta^2-\theta^2=\theta^2
D(X)=E(X2)−[E(X)]2=∫0+∞x2θ1e−θxdx−θ2=2θ2−θ2=θ2
指数分布常用来表示独立随机事件发生的间隔,比如旅客进机场的时间间隔,软件更新的时间间隔,许多电子产品的寿命服从指数分布。指数分布具有无记忆性。
(6)正态分布
设随机变量
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2),其概率密度函数为
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
σ
2
,
其
中
σ
>
0
,
−
∞
<
x
<
∞
f(x)= \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}, 其中\sigma>0,-\infty<x<\infty
f(x)=2πσ1e−σ2(x−μ)2,其中σ>0,−∞<x<∞
E
(
X
)
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
=
∫
−
∞
+
∞
x
1
2
π
σ
e
−
(
x
−
μ
)
2
σ
2
d
x
.
E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}dx.
E(X)=∫−∞+∞xf(x)dx=∫−∞+∞x2πσ1e−σ2(x−μ)2dx.
令
t
=
x
−
μ
σ
⇒
x
=
μ
+
σ
t
t=\frac{x-\mu}{\sigma}\Rightarrow x=\mu+\sigma t
t=σx−μ⇒x=μ+σt
E
(
X
)
=
∫
−
∞
+
∞
x
1
2
π
σ
e
−
(
x
−
μ
)
2
σ
2
d
x
=
1
2
π
∫
−
∞
+
∞
(
μ
+
σ
t
)
e
−
t
2
d
t
=
μ
2
π
∫
−
∞
+
∞
e
−
t
2
d
t
+
σ
2
π
∫
−
∞
+
∞
t
e
−
t
2
d
t
=
μ
E(X)=\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}dx=\frac{1}{\sqrt {2\pi}}\int_{-\infty}^{+\infty}(\mu+\sigma t)e^{-t^2}dt=\frac{\mu}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{-t^2}dt+\frac{\sigma}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}te^{-t^2}dt=\mu
E(X)=∫−∞+∞x2πσ1e−σ2(x−μ)2dx=2π1∫−∞+∞(μ+σt)e−t2dt=2πμ∫−∞+∞e−t2dt+2πσ∫−∞+∞te−t2dt=μ
进行变量替换,同理可得
D
(
X
)
=
E
(
X
2
)
−
[
E
(
X
)
]
2
=
σ
2
D(X)=E(X^2)-[E(X)]^2=\sigma^2
D(X)=E(X2)−[E(X)]2=σ2
常见分布和期望值如下图所示:
(7)Beta分布(概率的分布)
概率密度函数为
f
(
x
)
=
{
1
B
(
α
,
β
)
x
α
−
1
(
1
−
x
)
β
−
1
,
x
∈
[
0
,
1
]
,
0
,
其
他
.
f(x)=\begin{cases} \frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}, & x\in[0,1],\\ 0, 其他. \end{cases}
f(x)={B(α,β)1xα−1(1−x)β−1,0,其他.x∈[0,1],
其中系数B为:
B
(
α
,
β
)
=
∫
0
1
x
α
−
1
(
1
−
x
)
β
−
1
d
x
=
Γ
(
α
)
Γ
(
β
Γ
(
α
+
β
)
B(\alpha,\beta)=\int_{0}^{1}x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{\Gamma(\alpha)\Gamma(\beta}{\Gamma(\alpha+\beta)}
B(α,β)=∫01xα−1(1−x)β−1dx=Γ(α+β)Γ(α)Γ(β
E
(
X
)
=
∫
0
1
x
1
B
(
α
,
β
)
x
α
−
1
(
1
−
x
)
β
−
1
d
x
=
1
B
(
α
,
β
)
∫
0
1
x
(
α
+
1
)
−
1
(
1
−
x
)
β
−
1
=
B
(
α
+
1
,
β
)
B
(
α
,
β
)
=
Γ
(
α
+
β
)
Γ
(
α
)
Γ
(
β
)
/
Γ
(
α
+
β
+
1
)
Γ
(
α
+
1
)
Γ
(
β
)
=
α
α
+
β
E(X)=\int_{0}^{1}x\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{1}{B(\alpha,\beta)}\int_{0}^{1}x^{(\alpha+1)-1}(1-x)^{\beta-1}=\frac{B(\alpha+1,\beta)}{B(\alpha,\beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}/\frac{\Gamma(\alpha+\beta+1)}{\Gamma(\alpha+1)\Gamma(\beta)}=\frac{\alpha}{\alpha+\beta}
E(X)=∫01xB(α,β)1xα−1(1−x)β−1dx=B(α,β)1∫01x(α+1)−1(1−x)β−1=B(α,β)B(α+1,β)=Γ(α)Γ(β)Γ(α+β)/Γ(α+1)Γ(β)Γ(α+β+1)=α+βα
(8)指数族分布
(i)Bernoulli分布属于指数族分布
(ii)Guassion分布也是指数族分布
3.Sigmoid/Logistic函数的引入
在推导过程中,出现了Logistic方程
Θ
=
1
1
+
e
−
η
\Theta=\frac{1}{1+e^{-\eta}}
Θ=1+e−η1
可以写成
f
(
x
)
=
1
1
+
e
−
x
f(x)=\frac{1}{1+e^{-x}}
f(x)=1+e−x1
函数图像如下图所示
求导数
f
′
(
x
)
=
(
1
1
+
e
−
x
)
′
=
e
−
x
(
1
+
e
−
x
)
2
=
1
1
+
e
−
x
e
−
x
1
+
e
−
x
=
1
1
+
e
−
x
(
1
−
1
1
+
e
−
x
)
=
f
(
x
)
⋅
(
1
−
f
(
x
)
)
f'(x)=(\frac{1}{1+e^{-x}})'=\frac{e^{-x}}{(1+e^{-x})^2}=\frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}}=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})=f(x)\cdot (1-f(x))
f′(x)=(1+e−x1)′=(1+e−x)2e−x=1+e−x11+e−xe−x=1+e−x1(1−1+e−x1)=f(x)⋅(1−f(x))
4.事件独立性
给定两个事件A和B,若有
P
(
A
B
)
=
P
(
A
)
⋅
P
(
B
)
P(AB)=P(A)\cdot P(B)
P(AB)=P(A)⋅P(B)则A和B独立。
5.期望
期望的意义:概率加权下的平均值
离散型
E
(
X
)
=
∑
i
n
x
i
p
i
E(X)=\sum_{i}^{n}x_ip_i
E(X)=∑inxipi
连续型
E
(
X
)
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
E(X)=\int_{-\infty}^{+\infty}xf(x)dx
E(X)=∫−∞+∞xf(x)dx
期望的性质
无条件成立:(1)
E
(
k
X
)
=
k
E
(
X
)
E(kX)=kE(X)
E(kX)=kE(X) (2)
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
E(X+Y)=E(X)+E(Y)
E(X+Y)=E(X)+E(Y)
独立下成立:
E
(
X
Y
)
=
E
(
X
)
⋅
E
(
Y
)
E(XY)=E(X)\cdot E(Y)
E(XY)=E(X)⋅E(Y)
6.大数定律和中心极限定理
(1)大数定律
(2)中心极限定理
设随机变量
X
1
,
X
2
…
X
n
…
X_{1}, X_{2} \ldots X_{n} \ldots
X1,X2…Xn…互相独立,服从同一分布,并且具有相同的
期望
μ
\mu
μ和方差
σ
2
\sigma^2
σ2,则随机变量
Y
n
=
∑
i
=
1
n
X
i
−
n
μ
n
σ
Y_{n}=\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma}
Yn=nσ∑i=1nXi−nμ
的分布收敛到标准正态分布,容易得到
∑
i
=
1
n
X
i
\sum_{i=1}^{n} X_{i}
∑i=1nXi收敛到正态分布
N
(
n
μ
,
n
σ
2
)
\mathrm{N}\left(\mathrm{n} \mu, \mathrm{n} \sigma^{2}\right)
N(nμ,nσ2)。
7.贝叶斯公式带来的思考:
贝叶斯公式:
P
(
A
∣
D
)
=
P
(
D
∣
A
)
P
(
A
)
P
(
D
)
P(A | D)=\frac{P(D | A) P(A)}{P(D)}
P(A∣D)=P(D)P(D∣A)P(A)
给定某些样本D,在这些样本中计算某结论
A
1
,
A_{1},
A1,
A
2
…
A
n
A_{2} \ldots A_{n}
A2…An出现的概率,即
P
(
A
i
∣
D
)
\mathrm{P}\left(\mathrm{A}_{\mathrm{i}} | \mathrm{D}\right)
P(Ai∣D)。
max
P
(
A
i
∣
D
)
=
max
P
(
D
∣
A
i
)
P
(
A
i
)
P
(
D
)
=
max
(
P
(
D
∣
A
i
)
P
(
A
i
)
)
−
P
(
A
i
)
sec
t
+
Δ
max
P
(
D
∣
A
i
)
⇒
max
P
(
A
i
∣
D
)
→
max
P
(
D
∣
A
i
)
\begin{array}{c} \max P\left(A_{i} | D\right)=\max \frac{P\left(D | A_{i}\right) P\left(A_{i}\right)}{P(D)}=\max \left(P\left(D | A_{i}\right) P\left(A_{i}\right)\right)-P\left(A_{i}\right) \sec t+\Delta \max P\left(D | A_{i}\right) \\ \Rightarrow \max P\left(A_{i} | D\right) \rightarrow \max P\left(D | A_{i}\right) \end{array}
maxP(Ai∣D)=maxP(D)P(D∣Ai)P(Ai)=max(P(D∣Ai)P(Ai))−P(Ai)sect+ΔmaxP(D∣Ai)⇒maxP(Ai∣D)→maxP(D∣Ai)