机器学习与概率论

1.概率与直观
(1)先看一个例子,统计数字的概率,给定某正整数N,统计从 1 ! 1! 1! N ! N! N!的所有数中,首位数字出现1,2,3,4,5,6,7,8,9(9点分布)的频率,并画出曲线。
这里画出了n=100,1000
代码如下:

import matplotlib.pyplot as plt
# 求首位数
def first_digital(x):
    while x >= 10:
        # 整除用//,精确除法用/
        x = x // 10
    return x
def n_frequency(n):
    k = 1
    frequency = [0] * 10
    for i in range(1, n):
        k = k * i
        m = first_digital(k)
        frequency[m] += 1
    return frequency
if __name__=="__main__":
    frequency1=n_frequency(100)
    frequency2=n_frequency(1000)
    ax1 = plt.subplot(121)
    ax2 = plt.subplot(122)
    ax1.plot(frequency1,'r--',linewidth=2)
    ax1.plot(frequency1,'go',markersize=8)
    ax1.set_xticks(range(0,10))
    ax1.grid(True)

    ax2.plot(frequency2, 'r--', linewidth=2)
    ax2.plot(frequency2, 'go', markersize=8)
    ax2.set_xticks(range(0, 10))
    ax2.grid(True)

    plt.show()

运行结果
在这里插入图片描述
  计算可以得到1出现的概率大概是30%,满足本福特定律,并不是我们直观想象的1/9。
  本福特定律简介:是指在日常生活中的一组数据(阶乘,素数数列,斐波那楔数列,住宅地址号码等)中,以1为首的数据大概占数组总数的三成,该规律可以用来经济数据反欺诈,投票数据反欺诈。
(2)这里再给出一个例子,商品推荐,假设在某推荐场景中,经计算A和B两个商品与当前访问用户的匹配度分别为0.8分和0.2分,系统将随机为A生成一个均匀分布于0到0.8的最终得分,为B生成一个均匀分布于0到0.2的最终得分,试计算最终B的分数大于A的分数的概率。
   解:A=B的直线上方区域,即为B>A的情况。
      S 蓝 色 = 0.02 S_{蓝色}=0.02 S=0.02 S 矩 形 = 0.16 S_{矩形}=0.16 S=0.16 则p=0.02/0.16=0.125
在这里插入图片描述
(3)概率公式
 条件概率: P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB) P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(AB)P(B)
 全概率公式: P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i=1}^{n}P(A|B_i)P(B_i) P(A)=i=1nP(ABi)P(Bi)
 贝叶斯公式: P ( B i ∣ A ) = P ( A B i ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(B_i|A)=\frac{P(AB_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_{i=1}^{n}P(A|B_i)P(B_i)} P(BiA)=P(A)P(ABi)=i=1nP(ABi)P(Bi)P(ABi)P(Bi)
在这里插入图片描述
贝叶斯用法:
假定某系统中的若干样本x,计算该系统的参数,即
         P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) ∑ i = 1 n P ( x ∣ θ i ) P ( θ i ) P(\theta|x)=\frac{P(x|\theta)P(\theta)}{\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)} P(θx)=i=1nP(xθi)P(θi)P(xθ)P(θ)
其中:
   P ( θ ) P(\theta) P(θ)为没有数据支持下, θ \theta θ发生的概率,即先验概率;
   P ( θ ∣ x ) P(\theta|x) P(θx)为在数据支持下, θ \theta θ发生的概率,即后验概率;
   P ( x ∣ θ ) P(x|\theta) P(xθ)为似然函数,为给定某参数 θ \theta θ的概率分布。
2.常见概率分布
(1)两点分布
  已经随机变量X的分布律为:
   X 1 0 p p 1 − p \begin{array}{c|clr} X &\text{1} & \text{0} \\ \hline p & p & 1-p\\ \end{array} Xp1p01p
  则有 E ( X ) = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p . E(X)=1 \cdot p + 0 \cdot (1-p)=p. E(X)=1p+0(1p)=p.
     D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = 1 2 ⋅ p + 0 2 ( 1 − p ) − p 2 = p q . D(X)=E(X^2)-[E(X)]^2=1^2\cdot p+0^2(1-p)-p^2=pq. D(X)=E(X2)[E(X)]2=12p+02(1p)p2=pq.
(2)二项分布
  设随机变量X服从参数为n,p的二项分布,设 X i X_i Xi表示第 i i i次试验中事件A发生的次数, i = 1 , 2 , ⋅ ⋅ ⋅ , n i=1,2,\cdot \cdot \cdot,n i=1,2,,n
  则 X = ∑ i = 1 n X i X=\sum_{i=1}^{n}X_i X=i=1nXi,显然, X i X_i Xi相互独立均服从参数为 p p p 0 − 1 0-1 01分布,所以
   E ( X ) = ∑ i = 1 n E ( X i ) = n p . E(X)=\sum_{i=1}^{n}E(X_i)=np. E(X)=i=1nE(Xi)=np.
   D ( X ) = ∑ i = 1 n D ( X i ) = n p ( 1 − p ) . D(X)=\sum_{i=1}^{n}D(X_i)=np(1-p). D(X)=i=1nD(Xi)=np(1p).
(3)泊松分布
  设 X ∼ π ( λ ) X \sim \pi (\lambda) Xπ(λ),且分布律为
           P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λkeλ
  则 E ( X ) = ∑ k = 0 ∞ k λ k k ! e − λ = e − λ ∑ k = 0 ∞ k λ k k ! = e − λ ∑ k = 0 ∞ λ k − 1 ( k − 1 ) ! ⋅ λ = λ e − λ ⋅ e λ = λ E(X)=\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}\cdot\lambda=\lambda e^{-\lambda}\cdot e^\lambda=\lambda E(X)=k=0kk!λkeλ=eλk=0kk!λk=eλk=0(k1)!λk1λ=λeλeλ=λ
  同理可以求得 D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = λ D(X)=E(X^2)-[E(X)]^2=\lambda D(X)=E(X2)[E(X)]2=λ
(4)均匀分布
  设 X ∼ U ( a , b ) X \sim U (a,b) XU(a,b)的均匀分布,其概率密度为
f ( x ) = { 1 b − a , a < x < b , 0 , 其 他 . f(x)=\begin{cases} \frac{1}{b-a}, & a<x<b,\\ 0, & 其他. \end{cases} f(x)={ba1,0,a<x<b,.
   E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x = ∫ a b x 1 b − a d x = 1 2 ( a + b ) E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{a}^{b}x\frac{1}{b-a}dx=\frac{1}{2}(a+b) E(X)=+xf(x)dx=abxba1dx=21(a+b)
   D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = ∫ a b x 2 1 b − a d x − ( 1 a + b ) 2 = ( b − a ) 2 12 D(X)=E(X^2)-[E(X)]^2=\int_{a}^{b}x^2\frac{1}{b-a}dx-(\frac{1}{a+b})^2=\frac{(b-a)^2}{12} D(X)=E(X2)[E(X)]2=abx2ba1dx(a+b1)2=12(ba)2
(5)指数分布
  设随机变量X服从指数分布,其概率密度函数为
f ( x ) = { 1 θ e − x / θ , x > 0 , 0 , x ≤ 0. 其 中 θ > 0. f(x)=\begin{cases} \frac{1}{\theta}e^{-x/\theta}, & x>0,\\ 0, & x\leq0. \end{cases} 其中\theta>0. f(x)={θ1ex/θ,0,x>0,x0.θ>0.
  则有 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x = ∫ 0 + ∞ x 1 θ e − x θ d x = − x e − x θ ∣ 0 + ∞ + ∫ 0 + ∞ e − x θ d x = θ E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{0}^{+\infty}x\frac{1}{\theta}e^{-\frac{x}{\theta}}dx=-xe^{-\frac{x}{\theta}}|_{0}^{+\infty}+\int_{0}^{+\infty}e^{-\frac{x}{\theta}}dx=\theta E(X)=+xf(x)dx=0+xθ1eθxdx=xeθx0++0+eθxdx=θ
   D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = ∫ 0 + ∞ x 2 1 θ e − x θ d x − θ 2 = 2 θ 2 − θ 2 = θ 2 D(X)=E(X^2)-[E(X)]^2=\int_{0}^{+\infty}x^2\frac{1}{\theta}e^{-\frac{x}{\theta}}dx-\theta^2=2\theta^2-\theta^2=\theta^2 D(X)=E(X2)[E(X)]2=0+x2θ1eθxdxθ2=2θ2θ2=θ2
指数分布常用来表示独立随机事件发生的间隔,比如旅客进机场的时间间隔,软件更新的时间间隔,许多电子产品的寿命服从指数分布。指数分布具有无记忆性。
(6)正态分布
  设随机变量 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2),其概率密度函数为
f ( x ) = 1 2 π σ e − ( x − μ ) 2 σ 2 , 其 中 σ > 0 , − ∞ < x < ∞ f(x)= \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}, 其中\sigma>0,-\infty<x<\infty f(x)=2π σ1eσ2(xμ)2σ>0,<x<
   E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x = ∫ − ∞ + ∞ x 1 2 π σ e − ( x − μ ) 2 σ 2 d x . E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}dx. E(X)=+xf(x)dx=+x2π σ1eσ2(xμ)2dx.
  令 t = x − μ σ ⇒ x = μ + σ t t=\frac{x-\mu}{\sigma}\Rightarrow x=\mu+\sigma t t=σxμx=μ+σt
   E ( X ) = ∫ − ∞ + ∞ x 1 2 π σ e − ( x − μ ) 2 σ 2 d x = 1 2 π ∫ − ∞ + ∞ ( μ + σ t ) e − t 2 d t = μ 2 π ∫ − ∞ + ∞ e − t 2 d t + σ 2 π ∫ − ∞ + ∞ t e − t 2 d t = μ E(X)=\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}dx=\frac{1}{\sqrt {2\pi}}\int_{-\infty}^{+\infty}(\mu+\sigma t)e^{-t^2}dt=\frac{\mu}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{-t^2}dt+\frac{\sigma}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}te^{-t^2}dt=\mu E(X)=+x2π σ1eσ2(xμ)2dx=2π 1+(μ+σt)et2dt=2π μ+et2dt+2π σ+tet2dt=μ
  进行变量替换,同理可得 D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = σ 2 D(X)=E(X^2)-[E(X)]^2=\sigma^2 D(X)=E(X2)[E(X)]2=σ2
常见分布和期望值如下图所示:
在这里插入图片描述
(7)Beta分布(概率的分布)
  概率密度函数为
f ( x ) = { 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 , x ∈ [ 0 , 1 ] , 0 , 其 他 . f(x)=\begin{cases} \frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}, & x\in[0,1],\\ 0, 其他. \end{cases} f(x)={B(α,β)1xα1(1x)β1,0,.x[0,1],
  其中系数B为:
B ( α , β ) = ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x = Γ ( α ) Γ ( β Γ ( α + β ) B(\alpha,\beta)=\int_{0}^{1}x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{\Gamma(\alpha)\Gamma(\beta}{\Gamma(\alpha+\beta)} B(α,β)=01xα1(1x)β1dx=Γ(α+β)Γ(α)Γ(β
   E ( X ) = ∫ 0 1 x 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 d x = 1 B ( α , β ) ∫ 0 1 x ( α + 1 ) − 1 ( 1 − x ) β − 1 = B ( α + 1 , β ) B ( α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) / Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β ) = α α + β E(X)=\int_{0}^{1}x\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{1}{B(\alpha,\beta)}\int_{0}^{1}x^{(\alpha+1)-1}(1-x)^{\beta-1}=\frac{B(\alpha+1,\beta)}{B(\alpha,\beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}/\frac{\Gamma(\alpha+\beta+1)}{\Gamma(\alpha+1)\Gamma(\beta)}=\frac{\alpha}{\alpha+\beta} E(X)=01xB(α,β)1xα1(1x)β1dx=B(α,β)101x(α+1)1(1x)β1=B(α,β)B(α+1,β)=Γ(α)Γ(β)Γ(α+β)/Γ(α+1)Γ(β)Γ(α+β+1)=α+βα
(8)指数族分布
在这里插入图片描述
   (i)Bernoulli分布属于指数族分布
在这里插入图片描述
    (ii)Guassion分布也是指数族分布
在这里插入图片描述
在这里插入图片描述
3.Sigmoid/Logistic函数的引入
  在推导过程中,出现了Logistic方程
   Θ = 1 1 + e − η \Theta=\frac{1}{1+e^{-\eta}} Θ=1+eη1
  可以写成
f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1
  函数图像如下图所示
在这里插入图片描述
  求导数
   f ′ ( x ) = ( 1 1 + e − x ) ′ = e − x ( 1 + e − x ) 2 = 1 1 + e − x e − x 1 + e − x = 1 1 + e − x ( 1 − 1 1 + e − x ) = f ( x ) ⋅ ( 1 − f ( x ) ) f'(x)=(\frac{1}{1+e^{-x}})'=\frac{e^{-x}}{(1+e^{-x})^2}=\frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}}=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})=f(x)\cdot (1-f(x)) f(x)=(1+ex1)=(1+ex)2ex=1+ex11+exex=1+ex1(11+ex1)=f(x)(1f(x))
4.事件独立性
  给定两个事件A和B,若有 P ( A B ) = P ( A ) ⋅ P ( B ) P(AB)=P(A)\cdot P(B) P(AB)=P(A)P(B)则A和B独立。
5.期望
   期望的意义:概率加权下的平均值
   离散型 E ( X ) = ∑ i n x i p i E(X)=\sum_{i}^{n}x_ip_i E(X)=inxipi
   连续型 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty}xf(x)dx E(X)=+xf(x)dx
   期望的性质
    无条件成立:(1) E ( k X ) = k E ( X ) E(kX)=kE(X) E(kX)=kE(X) (2) E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
    独立下成立: E ( X Y ) = E ( X ) ⋅ E ( Y ) E(XY)=E(X)\cdot E(Y) E(XY)=E(X)E(Y)
6.大数定律和中心极限定理
   (1)大数定律
   (2)中心极限定理
      设随机变量 X 1 , X 2 … X n … X_{1}, X_{2} \ldots X_{n} \ldots X1,X2Xn互相独立,服从同一分布,并且具有相同的
    期望 μ \mu μ和方差 σ 2 \sigma^2 σ2,则随机变量
Y n = ∑ i = 1 n X i − n μ n σ Y_{n}=\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma} Yn=n σi=1nXinμ
    的分布收敛到标准正态分布,容易得到 ∑ i = 1 n X i \sum_{i=1}^{n} X_{i} i=1nXi收敛到正态分布 N ( n μ , n σ 2 ) \mathrm{N}\left(\mathrm{n} \mu, \mathrm{n} \sigma^{2}\right) N(nμ,nσ2)
7.贝叶斯公式带来的思考:
   贝叶斯公式: P ( A ∣ D ) = P ( D ∣ A ) P ( A ) P ( D ) P(A | D)=\frac{P(D | A) P(A)}{P(D)} P(AD)=P(D)P(DA)P(A)
   给定某些样本D,在这些样本中计算某结论 A 1 , A_{1}, A1, A 2 … A n A_{2} \ldots A_{n} A2An出现的概率,即 P ( A i ∣ D ) \mathrm{P}\left(\mathrm{A}_{\mathrm{i}} | \mathrm{D}\right) P(AiD)
max ⁡ P ( A i ∣ D ) = max ⁡ P ( D ∣ A i ) P ( A i ) P ( D ) = max ⁡ ( P ( D ∣ A i ) P ( A i ) ) − P ( A i ) sec ⁡ t + Δ max ⁡ P ( D ∣ A i ) ⇒ max ⁡ P ( A i ∣ D ) → max ⁡ P ( D ∣ A i ) \begin{array}{c} \max P\left(A_{i} | D\right)=\max \frac{P\left(D | A_{i}\right) P\left(A_{i}\right)}{P(D)}=\max \left(P\left(D | A_{i}\right) P\left(A_{i}\right)\right)-P\left(A_{i}\right) \sec t+\Delta \max P\left(D | A_{i}\right) \\ \Rightarrow \max P\left(A_{i} | D\right) \rightarrow \max P\left(D | A_{i}\right) \end{array} maxP(AiD)=maxP(D)P(DAi)P(Ai)=max(P(DAi)P(Ai))P(Ai)sect+ΔmaxP(DAi)maxP(AiD)maxP(DAi)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值