大模型基础
语言模型
定义:字符序列(token)的概率分布
自回归语言模型
-
用已知的词预测下一个词语
-
所谓自回归,就是自己预测自己
-
对于一句话,用前半段预测后半段
其他
-
温度:控制模型的随机性
-
比如在chatgpt中就有temperature参数,用户通过改变temperature参数,调整模型输出的内容的多样性和随机性。
-
-
在自回归语言模型 中生成整个序列 ,我们需要一次生成一个令牌(token),该令牌基于之前以生成的令牌进行计算获得:
-
-
其中 $T≥0$ 是一个控制我们希望从语言模型中得到多少随机性的温度参数:
-
T=0:确定性地在每个位置 i 选择最可能的令牌 $x_{i}$
-
T=1:从纯语言模型“正常(normally)”采样
-
T=∞:从整个词汇表上的均匀分布中采样
-
-
"退火"
-
这个术语来源于冶金学,其中热的金属会逐渐冷却以改变其物理性质。在这里,它类比的是对概率分布进行调整的过程。"退火"分布是通过将原始概率分布的每个元素都取幂 ,然后重新标准化得到的新分布。当 T ≠ 1时,这个过程会改变原始概率分布,因此从"退火"分布中采样得到的结果可能与对每一步的条件分布应用 T 并进行迭代采样的结果不同。
-
大模型相关历史
熵
-
信息熵的定义
-
- 一个文本出现的概率越高,信息量越少
-
交叉熵
N-garam模型
-
基于序列的最后n-1个字符预测下一个字符
神经语言模型
-
使用神经网络统计字符概率
其他
-
N-gram模型计算高效,统计效率低下。
-
神经语言模型统计高效,计算上低效的。
-
算力提升,神经语言模型成为主导。
大规模语言模型的风险
可靠性
-
给出的答案不一定可靠,而且难以分辨
社会偏见
-
训练数据中有社会偏见
有害性
-
模型会产生冒犯性内容
虚假内容
-
被用于制造虚假信息
安全性
-
训练数据从互联网来,会被数据攻击
法律考虑
-
涉及到知识产权、隐私等问题