预训练语言模型(零):一些预备的数学知识

这里放了一些语言模型预备的数学知识
之前一直没发以为有可能会再补充,但几天过去了我啥也没补充,就先发上来吧


预备知识

1. sigmoid函数

sigmoid函数的定义如下:
σ ( x ) = 1 1 + e − x (1) \sigma (x)= \frac{1}{1+e^{-x}} \tag{1} σ(x)=1+ex1(1)
函数定义域为 ( − ∞ , + ∞ ) (-\infty ,+\infty) (,+) ,值域为 ( 0 , 1 ) (0,1) (0,1) ,下图为sigmoid函数的图像:

其导函数的形式如下:
σ ′ ( x ) = σ ( x ) [ 1 − σ ( x ) ] (2) \sigma '(x)=\sigma (x)[1-\sigma (x)] \tag{2} σ(x)=σ(x)[1σ(x)](2)
同时可得,函数 log ⁡ σ ( x ) \log\sigma (x) logσ(x) log ⁡ ( 1 − σ ( x ) ) \log(1-\sigma (x)) log(1σ(x)) 的导函数分别为:
[ log ⁡ σ ( x ) ] ′ = 1 − σ ( x ) , [ log ⁡ ( 1 − σ ( x ) ) ] ′ = − σ ( x ) (3) [\log\sigma (x)]'=1-\sigma (x),[\log(1-\sigma (x))]'=-\sigma (x) \tag{3} [logσ(x)]=1σ(x)[log(1σ(x))]=σ(x)(3)

2. 逻辑回归

对于二分类问题来说,设 { ( x i , y i ) } i = 1 m \{ (x_i, y_i) \}_{i=1}^m {(xi,yi)}i=1m 为一个二分类问题的样本数据,其中 x i ∈ R n x_i\in R^n xiRn , y i ∈ { 0 , 1 } y_i \in \{0,1\} yi{0,1}
那么对于样本 x = ( x 1 , x 2 , … , x n ) T \mathbf{x}=(x_1,x_2,…,x_n)^\mathrm{T} x=(x1,x2,,xn)T ,二分类的hypothesis函数可以写成:
h θ ( x ) = σ ( θ 0 + θ 1 x 1 + θ 2 x 2 + … + θ n x n ) (4) h_\theta (x)=\sigma(\theta_0+\theta_1x_1+\theta_2x_2+…+\theta_nx_n) \tag{4} hθ(x)=σ(θ0+θ1x1+θ2x2++θnxn)(4)
其中 θ = ( θ 0 , θ 1 , θ 2 , … , θ n ) T \theta=(\theta_0,\theta_1,\theta_2,…,\theta_n)^\mathrm{T} θ=(θ0,θ1,θ2,,θn)T ,同时为了符号简化,引入 x 0 = 1 x_0=1 x0=1 ,将向量拓展为 x = ( x 0 , x 1 , x 2 , … , x n ) T \mathbf{x}=(x_0,x_1,x_2,…,x_n)^\mathrm{T} x=(x0,x1,x2,,xn)T ,此时, h θ h_\theta hθ 可以简写为:
h θ ( x ) = σ ( θ T x ) = 1 1 + e − θ T x (5) h_\theta(x)=\sigma (\theta^\mathrm{T} \mathbf{x})=\frac{1}{1+e^{-\theta^\mathrm{T}\mathbf{x}}}\tag{5} hθ(x)=σ(θTx)=1+eθTx1(5)
实际应用中,单个样本的损失函数 c o s t ( x i , y i ) cost(x_i,y_i) cost(xi,yi) 常取为对数似然函数:
c o s t ( x i , y i ) = { − log ⁡ ( h θ ( x i ) ) , y i = 1 ; − log ⁡ ( 1 − h θ ( x i ) ) , y i = 0. (6) cost(x_i,y_i)= \begin{cases} -\log(h_\theta(x_i)), &y_i=1;\\ -\log(1-h_\theta(x_i)), &y_i=0. \end{cases}\tag{6} cost(xi,yi)={log(hθ(xi)),log(1hθ(xi)),yi=1;yi=0.(6)
这个分段函数也可以写成下面这个整体表达式:
c o s t ( x i , y i ) = − y i log ⁡ ( h θ ( x i ) ) − ( 1 − y i ) log ⁡ ( 1 − h θ ( x i ) ) (7) cost(x_i,y_i)=-y_i\log(h_\theta(x_i))-(1-y_i)\log(1-h_\theta(x_i))\tag{7} cost(xi,yi)=yilog(hθ(xi))(1yi)log(1hθ(xi))(7)

3. 贝叶斯公式

不赘述了,只贴个公式好了:
P ( A ∣ B ) = P ( A , B ) P ( B ) = P ( A ) P ( B ∣ A ) P ( B ) (8) P(A|B)=\frac{P(A,B)}{P(B)}=P(A)\frac{P(B|A)}{P(B)}\tag{8} P(AB)=P(B)P(A,B)=P(A)P(B)P(BA)(8)

4. 哈夫曼编码

也不多解释了,放一个小例子,关于哈夫曼树在语言模型里如何构建:

  1. 约定左孩子词频较大,右孩子词频较小;
  2. 约定左孩子节点编码为1,右孩子节点编码为0。

示意图如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值