NLP01:概率论基础

公众号:数据挖掘与机器学习笔记

1.随机变量

  • 定义:如果一个随机试验的结果可以用一个变量来表示,那么该变量叫作随机变量b>

    • 离散行随机变量:可以按照一定次序列出的随机变量,常用字母 ξ \xi ξ η \eta η等表示。

    • 连续型随机变量:如果变量可以在某个区间任取一实数,即变量的取值是连续的。

    ​ 表1 离散型随机变量 ξ \xi ξ的分布列

ξ \xi ξ a 1 a_1 a1 a 2 a_2 a2 … \dots a n a_n an
P p 1 p_1 p1 p 2 p_2 p2 … \dots p n p_n pn

常见的概率分布有伯努利分布、二项分布、泊松分布和正太分布。

2.期望和方差

  • 期望定义:假设离散型随机变量 ξ \xi ξ的分布列如表1所示,则称 a 1 p 1 + a 2 p 2 + … + a n p n a_1p_1+a_2p_2+\ldots+a_np_n a1p1+a2p2++anpn ξ \xi ξ的数学期望,记作 E ξ E\xi Eξ。期望反映随机变量取值的平均和集中趋势,具有以下性质:
    • 如果 η = a ξ + b \eta=a\xi+b η=aξ+b,则 E η = a E ξ + b E\eta=aE\xi+b Eη=aEξ+b,a、b为常数
    • E ( ξ 1 + ξ 2 ) = E ξ 1 + E ξ 2 E(\xi_1+\xi_2)=E\xi_1+E\xi_2 E(ξ1+ξ2)=Eξ1+Eξ2
  • 方差定义:假设离散型随机变量 ξ \xi ξ的分布列如表1所示,则称 ( a 1 − E ξ ) 2 p 1 + ( a 2 − E ξ ) 2 p 2 + … + ( a n − E ξ ) 2 p n (a_1-E\xi)^2p_1+(a_2-E\xi)^2p_2+\ldots+(a_n-E\xi)^2p_n (a1Eξ)2p1+(a2Eξ)2p2++(anEξ)2pn ξ \xi ξ的方差,记作 D ξ D\xi Dξ,标准差为 D ξ \sqrt{D\xi} Dξ 。方差和标准差反应随机变量关于期望的稳定、集中与离散的程度。性质:
    • D ( a ξ + b ) = a 2 D ξ D(a\xi+b)=a^2D\xi D(aξ+b)=a2Dξ
    • 如果 ξ ∼ B ( n , p ) \xi \sim B(n,p) ξB(n,p),则 D ξ = n p ( 1 − p ) D\xi=np(1-p) Dξ=np(1p),B表示二项分布

3.伯努利分布

伯努利分布又称两点分布,其概率分布列如下:

ξ \xi ξ10
Pp1-p

设概率质量函数为:
KaTeX parse error: No such environment: equation at position 30: …p)^{1-x}=\begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{cases} …
则随机变量 X X X的期望为 p p p,方差为 p ( 1 − p ) p(1-p) p(1p)

probs=np.array([0.6,0.4])
face=[0,1]
plt.bar(face,probs)
plt.title("Bernoulli Distribution",fontsize=12)
plt.ylabel("prob",fontsize=12)
plt.xlabel("x",fontsize=12)
axes=plt.gca()
axes.set_ylim([0,1])

image-20200830101451698

4.二项分布

二项分布即独立的进行n词伯努利实验,如果概率分布列如下,则称 ξ \xi ξ服从伯努利分布。伯努利分布是二项式分布中n=1的情形。

ξ \xi ξ012 … \dots n
P C n 0 p 0 ( 1 − p ) n C_n^0p^0(1-p)^n Cn0p0(1p)n C n 1 p 1 ( 1 − p ) n − 1 C_n^1p^1(1-p)^{n-1} Cn1p1(1p)n1 C n 2 p 2 ( 1 − p ) n − 2 C_n^2p^2(1-p)^{n-2} Cn2p2(1p)n2 … \ldots C n n p n ( 1 − p ) 0 C_n^np^n(1-p)^0 Cnnpn(1p)0

当一次实验中有多余两种可能的结果,则二项式分布扩展为多项式分布。

import numpy as np
import matplotlib.pyplot as plt
import math
import scipy.stats as stats
import seaborn as sns

for prob in range(3,10,3):
  x=np.arange(0,25)
  binom=stats.binom.pmf(x,20,0.1*prob)
  plt.plot(x,binom,"-o",label="p={:f}".format(0.1*prob))
  plt.xlabel('Random Variable', fontsize=12)
  plt.ylabel('Probability', fontsize=12)
  plt.title("Binomial Distribution varying p")
  plt.legend()

image-20200830102025313

5.泊松分布

如果 ξ \xi ξ的概率分布列为:
P ( X = K ) = λ k k ! e − λ , ( k = 0 , 1 , . . . , n ) P(X=K)=\frac{\lambda ^k}{k!}e^{-\lambda},(k=0,1,...,n) P(X=K)=k!λkeλ,(k=0,1,...,n)
则称 ξ \xi ξ服从泊松分布。其中, λ \lambda λ表示单位时间或者单位面积内随机事件发生的平均概率,当二项式的n很大而p很小时,泊松分布是二项式分布的近似。泊松分布适合描述在单位时间、单位空间内罕见事件发生次数的分布。

for lambd in range(2, 8, 2):
    n = np.arange(0, 10)
    poisson = stats.poisson.pmf(n, lambd)
    plt.plot(n, poisson, '-o', label="λ = {:f}".format(lambd))
    plt.xlabel('Number of Events', fontsize=12)
    plt.ylabel('Probability', fontsize=12)
    plt.title("Poisson Distribution varying λ")
    plt.legend()

image-20200830102419883

6.正态分布

f ( x ; η , σ ) = a e − ( x − η ) 2 2 σ 2 f(x;\eta,\sigma)=ae^{\frac{-(x-\eta)^2}{2\sigma^2}} f(x;η,σ)=ae2σ2(xη)2

如果一个函数形如上式,其中, a , η , σ a,\eta,\sigma a,η,σ为实数常数,且 a > 0 a>0 a>0,则称其为高斯函数。

如果随机变量 x x x服从一个位置参数为 η \eta η、尺寸参数为 σ \sigma σ的概率分布,并且其概率密度函数为:
ϕ ( x ) = 1 2 π σ e − ( x − η ) 2 2 σ 2 \phi(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{\frac{-(x-\eta)^2}{2\sigma^2}} ϕ(x)=2πσ 1e2σ2(xη)2
则随机变量 X X X服从正太分布,右称高斯分布。

import numpy as np
import matplotlib.pyplot as plt
import math

u=1 #均值
u01=-2
sig=math.sqrt(0.2) #标准差

x=np.linspace(u-3*sig,u+3*sig,50)
y_sig=np.exp(-(x-u)**2/(2*sig**2))/(math.sqrt(2*math.pi)*sig)
print(x)
print("="*20)
print(y_sig)
plt.plot(x,y_sig,"r-",linewidth=2)
plt.grid(True)
plt.show()

image-20200830100541767

7.条件概率、联合概率和全概率

  • 定义:如果 A A A B B B是两个事件,且 P ( B ) ≠ 0 P(B)\neq 0 P(B)=0,那么在给定 B B B的条件下, A A A发生的概率为:
    P ( A ∣ B ) = P ( A ⋂ B ) P ( B ) P(A|B)=\frac{P(A \bigcap B )}{P(B)} P(AB)=P(B)P(AB)
    其中 P ( A ⋂ B ) P(A \bigcap B) P(AB)是联合概率,表示 A A A B B B同时发生的概率,也可记作 P ( A , B ) P(A,B) P(A,B)

  • 假设 B n : 1 , 2 , 3 , … B_n:1,2,3,\ldots Bn:1,2,3,为有限或者无限个事件,它们两两互斥并且在每次试验中至少有一个发生,则称 B n B_n Bn为一完备事件组,且每个集合 B n B_n Bn都是一个可测集合,则对任意事件 A A A有全概率公式:

P ( A ) = ∑ n P ( A ⋂ B ) = ∑ n P ( A ∣ B n ) P ( B n ) P(A)=\sum_nP(A\bigcap B)=\sum _nP(A|B_n)P(B_n) P(A)=nP(AB)=nP(ABn)P(Bn)

8.先验概率和后验概率

**先验概率(prior probability):**指根据以往经验和分析。在实验或采样前就可以得到的概率。

**后验概率(posterior probability):**指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。

9.贝叶斯公式

  • 定义:设 B 1 , B 2 , … , B n B_1,B_2,\ldots,B_n B1,B2,,Bn是互不相容的非零概率事件完备系,则对任意非零概率的事件 A A A k = 1 , … , n k=1,\ldots,n k=1,,n,有

P ( B k ∣ A ) = P ( B k ) P ( A ∣ B k ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_k|A)=\frac{P(B_k)P(A|B_k)}{\sum_{j=1}^nP(B_j)P(A|B_j)} P(BkA)=j=1nP(Bj)P(ABj)P(Bk)P(ABk)

10.最大似然估计

在机器学习中,似然函数是一种关于模型中参数的函数。似然函数基于参数的似然性,"似然性"与“概率”的意思很近,但又有所区别。概率用于在已知参数的情况下,预测接下来的观测发生的结果;似然性用于根据一些观测结果,估计给定模型的参数可能值。假设 X X X是观测结果序列,它的概率分布 f ( x ) f(x) f(x)依赖参数 θ \theta θ,则似然函数表示为
L ( θ ∣ x ) = f θ ( x ) = P θ ( X = x ) L(\theta|x)=f_\theta(x)=P_\theta(X=x) L(θx)=fθ(x)=Pθ(X=x)
最大似然估计的思想是假设每个观测结果 x x x是独立同分布的,通过似然函数 L ( θ ∣ x ) L(\theta|x) L(θx)求观测结果 X X X发生的概率最大的参数 θ \theta θ,即 a r g m a x θ f ( X ; θ ) argmax_\theta f(X;\theta) argmaxθf(X;θ)。比如在伯努利分布中,参数 θ \theta θ就是 P P P;在泊松分布中, θ \theta θ代表 λ \lambda λ

求解最大似然估计的一般步骤如下:

  • 写出似然函数
  • 对似然函数取对数,得到对数似然函数
  • 求对数似然函数的关于参数组的偏导数,并令其为0,得到似然方程组
  • 解似然函数,得到参数组的值

代码:https://github.com/chongzicbo/nlp-ml-dl-notes/blob/master/code/nlp_tutorial/NLP01%EF%BC%9A%E6%A6%82%E7%8E%87%E8%AE%BA%E5%9F%BA%E7%A1%80.ipynb

参考

  • [1] <<智能问答与深度学习>>

  • [2]https://www.cnblogs.com/Renyi-Fan/p/13282258.html

  • [3]https://juejin.im/post/6844904096806223885
    在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值