机器学习与概率论

最新推荐文章于 2023-12-27 18:02:19 发布

bingxiash

最新推荐文章于 2023-12-27 18:02:19 发布

阅读量682

点赞数

分类专栏：机器学习数学强化

本文链接：https://blog.csdn.net/u014168855/article/details/104104496

版权

机器学习数学强化专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.概率与直观
（1）先看一个例子，统计数字的概率，给定某正整数N，统计从 $1!$ 到 $N!$ 的所有数中，首位数字出现1,2,3,4,5,6,7,8,9（9点分布）的频率，并画出曲线。
这里画出了n=100，1000
代码如下：

import matplotlib.pyplot as plt
# 求首位数
def first_digital(x):
    while x >= 10:
        # 整除用//，精确除法用/
        x = x // 10
    return x
def n_frequency(n):
    k = 1
    frequency = [0] * 10
    for i in range(1, n):
        k = k * i
        m = first_digital(k)
        frequency[m] += 1
    return frequency
if __name__=="__main__":
    frequency1=n_frequency(100)
    frequency2=n_frequency(1000)
    ax1 = plt.subplot(121)
    ax2 = plt.subplot(122)
    ax1.plot(frequency1,'r--',linewidth=2)
    ax1.plot(frequency1,'go',markersize=8)
    ax1.set_xticks(range(0,10))
    ax1.grid(True)

    ax2.plot(frequency2, 'r--', linewidth=2)
    ax2.plot(frequency2, 'go', markersize=8)
    ax2.set_xticks(range(0, 10))
    ax2.grid(True)

    plt.show()

运行结果
在这里插入图片描述
计算可以得到1出现的概率大概是30%，满足本福特定律，并不是我们直观想象的1/9。
本福特定律简介：是指在日常生活中的一组数据（阶乘，素数数列，斐波那楔数列，住宅地址号码等）中，以1为首的数据大概占数组总数的三成，该规律可以用来经济数据反欺诈，投票数据反欺诈。
（2）这里再给出一个例子，商品推荐，假设在某推荐场景中，经计算A和B两个商品与当前访问用户的匹配度分别为0.8分和0.2分，系统将随机为A生成一个均匀分布于0到0.8的最终得分，为B生成一个均匀分布于0到0.2的最终得分，试计算最终B的分数大于A的分数的概率。
解：A=B的直线上方区域，即为B>A的情况。
$S_{蓝色}=0.02$ $S_{矩形}=0.16$ 则p=0.02/0.16=0.125
在这里插入图片描述
(3)概率公式
条件概率： $P(A|B)=\frac{P(AB)}{P(B)}$ 则 $P (A B) = P (A ∣ B) P (B)$
全概率公式： $P(A)=\sum_{i=1}^{n}P(A|B_i)P(B_i)$
贝叶斯公式： $P(B_i|A)=\frac{P(AB_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_{i=1}^{n}P(A|B_i)P(B_i)}$

贝叶斯用法：
假定某系统中的若干样本x，计算该系统的参数，即
$P(\theta|x)=\frac{P(x|\theta)P(\theta)}{\sum_{i=1}^{n}P(x|\theta_i)P(\theta_i)}$
其中：
$P(\theta)$ 为没有数据支持下， $\theta$ 发生的概率，即先验概率；
$P(\theta|x)$ 为在数据支持下， $\theta$ 发生的概率，即后验概率；
$P(x|\theta)$ 为似然函数，为给定某参数 $\theta$ 的概率分布。
2.常见概率分布
(1)两点分布
已经随机变量X的分布律为：
$\begin{array}{c|clr} X &\text{1} & \text{0} \\ \hline p & p & 1-p\\ \end{array}$
则有 $\cdot p + 0 \cdot (1-p)=p.$
$D(X)=E(X^2)-[E(X)]^2=1^2\cdot p+0^2(1-p)-p^2=pq.$
(2)二项分布
设随机变量X服从参数为n，p的二项分布，设 $X_i$ 表示第 $i$ 次试验中事件A发生的次数， $i=1,2,\cdot \cdot \cdot,n$
则 $X=\sum_{i=1}^{n}X_i$ ，显然， $X_i$ 相互独立均服从参数为 $p$ 的 $0 - 1$ 分布，所以
$E(X)=\sum_{i=1}^{n}E(X_i)=np.$
$D(X)=\sum_{i=1}^{n}D(X_i)=np(1-p).$
(3)泊松分布
设 $\sim \pi (\lambda)$ ，且分布律为
$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$
则 $E(X)=\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\sum_{k=0}^{\infty}k\frac{\lambda^k}{k!}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}\cdot\lambda=\lambda e^{-\lambda}\cdot e^\lambda=\lambda$
同理可以求得 $D(X)=E(X^2)-[E(X)]^2=\lambda$
(4)均匀分布
设 $\sim U (a,b)$ 的均匀分布，其概率密度为
$f(x)=\begin{cases} \frac{1}{b-a}, & a<x<b,\\ 0, & 其他. \end{cases}$
$E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{a}^{b}x\frac{1}{b-a}dx=\frac{1}{2}(a+b)$
$D(X)=E(X^2)-[E(X)]^2=\int_{a}^{b}x^2\frac{1}{b-a}dx-(\frac{1}{a+b})^2=\frac{(b-a)^2}{12}$
(5)指数分布
设随机变量X服从指数分布，其概率密度函数为
$f(x)=\begin{cases} \frac{1}{\theta}e^{-x/\theta}, & x>0,\\ 0, & x\leq0. \end{cases} 其中\theta>0.$
则有 $E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{0}^{+\infty}x\frac{1}{\theta}e^{-\frac{x}{\theta}}dx=-xe^{-\frac{x}{\theta}}|_{0}^{+\infty}+\int_{0}^{+\infty}e^{-\frac{x}{\theta}}dx=\theta$
$D(X)=E(X^2)-[E(X)]^2=\int_{0}^{+\infty}x^2\frac{1}{\theta}e^{-\frac{x}{\theta}}dx-\theta^2=2\theta^2-\theta^2=\theta^2$
指数分布常用来表示独立随机事件发生的间隔，比如旅客进机场的时间间隔，软件更新的时间间隔，许多电子产品的寿命服从指数分布。指数分布具有无记忆性。
(6)正态分布
设随机变量 $X\sim N(\mu,\sigma^2)$ ,其概率密度函数为
$\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}，其中\sigma>0,-\infty<x<\infty$
$E(X)=\int_{-\infty}^{+\infty}xf(x)dx=\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}dx.$
令 $t=\frac{x-\mu}{\sigma}\Rightarrow x=\mu+\sigma t$
$E(X)=\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{\sigma^2}}dx=\frac{1}{\sqrt {2\pi}}\int_{-\infty}^{+\infty}(\mu+\sigma t)e^{-t^2}dt=\frac{\mu}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}e^{-t^2}dt+\frac{\sigma}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}te^{-t^2}dt=\mu$
进行变量替换，同理可得 $D(X)=E(X^2)-[E(X)]^2=\sigma^2$
常见分布和期望值如下图所示：
在这里插入图片描述
(7)Beta分布（概率的分布）
概率密度函数为
$f(x)=\begin{cases} \frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}, & x\in[0,1],\\ 0, 其他. \end{cases}$
其中系数B为：
$B(\alpha,\beta)=\int_{0}^{1}x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{\Gamma(\alpha)\Gamma(\beta}{\Gamma(\alpha+\beta)}$
$E(X)=\int_{0}^{1}x\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}dx=\frac{1}{B(\alpha,\beta)}\int_{0}^{1}x^{(\alpha+1)-1}(1-x)^{\beta-1}=\frac{B(\alpha+1,\beta)}{B(\alpha,\beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}/\frac{\Gamma(\alpha+\beta+1)}{\Gamma(\alpha+1)\Gamma(\beta)}=\frac{\alpha}{\alpha+\beta}$
(8)指数族分布
在这里插入图片描述
（i）Bernoulli分布属于指数族分布

（ii）Guassion分布也是指数族分布

3.Sigmoid/Logistic函数的引入
在推导过程中，出现了Logistic方程
$\Theta=\frac{1}{1+e^{-\eta}}$
可以写成
$f(x)=\frac{1}{1+e^{-x}}$
函数图像如下图所示
在这里插入图片描述
求导数
$f'(x)=(\frac{1}{1+e^{-x}})'=\frac{e^{-x}}{(1+e^{-x})^2}=\frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}}=\frac{1}{1+e^{-x}}(1-\frac{1}{1+e^{-x}})=f(x)\cdot (1-f(x))$
4.事件独立性
给定两个事件A和B，若有 $P(AB)=P(A)\cdot P(B)$ 则A和B独立。
5.期望
期望的意义：概率加权下的平均值
离散型 $E(X)=\sum_{i}^{n}x_ip_i$
连续型 $E(X)=\int_{-\infty}^{+\infty}xf(x)dx$
期望的性质
无条件成立：（1） $E (k X) = k E (X)$ (2) $E (X + Y) = E (X) + E (Y)$
独立下成立： $E(XY)=E(X)\cdot E(Y)$
6.大数定律和中心极限定理
（1）大数定律
（2）中心极限定理
设随机变量 $X_{1}, X_{2} \ldots X_{n} \ldots$ 互相独立，服从同一分布，并且具有相同的
期望 $\mu$ 和方差 $\sigma^2$ ，则随机变量
$Y_{n}=\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma}$
的分布收敛到标准正态分布，容易得到 $\sum_{i=1}^{n} X_{i}$ 收敛到正态分布 $\mathrm{N}\left(\mathrm{n} \mu, \mathrm{n} \sigma^{2}\right)$ 。
7.贝叶斯公式带来的思考:
贝叶斯公式： $D)=\frac{P(D | A) P(A)}{P(D)}$
给定某些样本D，在这些样本中计算某结论 $A_{1},$ $A_{2} \ldots A_{n}$ 出现的概率，即 $\mathrm{P}\left(\mathrm{A}_{\mathrm{i}} | \mathrm{D}\right)$ 。
$\begin{array}{c} \max P\left(A_{i} | D\right)=\max \frac{P\left(D | A_{i}\right) P\left(A_{i}\right)}{P(D)}=\max \left(P\left(D | A_{i}\right) P\left(A_{i}\right)\right)-P\left(A_{i}\right) \sec t+\Delta \max P\left(D | A_{i}\right) \\ \Rightarrow \max P\left(A_{i} | D\right) \rightarrow \max P\left(D | A_{i}\right) \end{array}$