预训练语言模型（零）：一些预备的数学知识_预训练回归任务还需要加sigmoid吗-CSDN博客

本文链接：https://blog.csdn.net/Dream_Poem/article/details/122726601

这里放了一些语言模型预备的数学知识
之前一直没发以为有可能会再补充，但几天过去了我啥也没补充，就先发上来吧

预备知识

1. sigmoid函数

sigmoid函数的定义如下：
$\sigma (x)= \frac{1}{1+e^{-x}} \tag{1}$
函数定义域为 $(-\infty ,+\infty)$ ，值域为 $(0, 1)$ ，下图为sigmoid函数的图像：

其导函数的形式如下：
$\sigma '(x)=\sigma (x)[1-\sigma (x)] \tag{2}$
同时可得，函数 $\log\sigma (x)$ 和 $\log(1-\sigma (x))$ 的导函数分别为：
$[\log\sigma (x)]'=1-\sigma (x)，[\log(1-\sigma (x))]'=-\sigma (x) \tag{3}$

2. 逻辑回归

对于二分类问题来说，设 ${ (x_i, y_i) \}_{i=1}^m$ 为一个二分类问题的样本数据，其中 $x_i\in R^n$ , $y_i \in \{0,1\}$ 。
那么对于样本 $\mathbf{x}=(x_1,x_2,…,x_n)^\mathrm{T}$ ，二分类的hypothesis函数可以写成：
$h_\theta (x)=\sigma(\theta_0+\theta_1x_1+\theta_2x_2+…+\theta_nx_n) \tag{4}$
其中 $\theta=(\theta_0,\theta_1,\theta_2,…,\theta_n)^\mathrm{T}$ ，同时为了符号简化，引入 $x_0=1$ ，将向量拓展为 $\mathbf{x}=(x_0,x_1,x_2,…,x_n)^\mathrm{T}$ ，此时， $h_\theta$ 可以简写为：
$h_\theta(x)=\sigma (\theta^\mathrm{T} \mathbf{x})=\frac{1}{1+e^{-\theta^\mathrm{T}\mathbf{x}}}\tag{5}$
实际应用中，单个样本的损失函数 $cost(x_i,y_i)$ 常取为对数似然函数：
$cost(x_i,y_i)= \begin{cases} -\log(h_\theta(x_i)), &y_i=1;\\ -\log(1-h_\theta(x_i)), &y_i=0. \end{cases}\tag{6}$
这个分段函数也可以写成下面这个整体表达式：
$cost(x_i,y_i)=-y_i\log(h_\theta(x_i))-(1-y_i)\log(1-h_\theta(x_i))\tag{7}$