- 引言
语言模型定义
Language Model 是一种对token序列的概率分布,对于一个序列p(x1,…,xL),语言模型会为其分配一个概率p,这个分配概率的能力就是语言模型的能力。这种能力体现了语言模型的语法能力,世界知识等能力。
自回归语言模型
自回归语言模型的特点是它可以利用例如前馈神经网络等方法有效计算出每个条件概率分布p(xi|x1:i-1),根据这一系列概率分布我们就可以依次生成下一个token的条件概率分布
这里T是控制随机性的温度参数,当
T=0时,每个位置上只选择概率最高的token
T=1时,完全normally采样
T=无限大时,则是从整个词汇表中进行均匀采样
为了保证调整T时,概率和为1,一般采用重新标准化分布来解决这个问题。(softmax?)
当T值较高时,生成结果将更为随机,当T值较低时,结果为更加稳定。
T作为其他领域的温度系数,提高时会提高熵(同样包括信息熵),熵的增加使得结果变得更难确定,更为随机。
大模型LLM
信息熵,N-Gram模型
信息熵
熵的值越小,序列就越具有确定性,更容易编码
香农率先提出了N-gram模型,即:
即一个未知token的预测只依赖于最后的n-1个字符。其缺点在于难以捕获Long-term依赖关系,更关心局部依赖。
神经语言模型
即利用神经网络实现以上概率的计算,随着RNN LSTM和Transformer的发展,神经网络逐渐取代了n-gram模型成为了主流。
大量语料库及大量的参数使得仅仅是预测下一个词这么简单的方式,就让深度学习模型学习到了大量的数量、语法、语义、文学、逻辑、世界知识等knowledge,这也是基于大数据的大模型研究的意义。
大模型的风险
可靠性:可能会产生错误及误导信息
社会偏见:从大量语料中学习到的错误或不合适的偏见
有害性:大量语料中存在有害信息,这些会被大模型所学习到
虚假信息:产生的信息人类难以辨别真伪
安全性:包括prompts,有害语料在内的漏洞风险
法律风险:版权问题难以解决
成本和环境影响:训练所需的GPU,及数据中心所需的大量电力及散热需求会带来巨大的环境影响
开放性:可以发现,随着大模型的发布,即使是开源的大模型,你也很难获取到其内部具体的训练细节或模型架构。