大模型理论基础-第一章(大模型基础)

本文讨论了大模型的基础,如语言模型的定义,自回归模型的机制,以及温度控制的随机性。还回顾了历史发展,涉及N-gram和神经语言模型的优缺点,以及大规模语言模型带来的问题,包括可靠性、社会偏见、有害内容和安全风险,以及法律层面的考虑。
摘要由CSDN通过智能技术生成

大模型基础

语言模型

定义:字符序列(token)的概率分布

自回归语言模型

  • 用已知的词预测下一个词语

  • 所谓自回归,就是自己预测自己

  • 对于一句话,用前半段预测后半段

其他

  • 温度:控制模型的随机性

    • 比如在chatgpt中就有temperature参数,用户通过改变temperature参数,调整模型输出的内容的多样性和随机性。

  • 在自回归语言模型 中生成整个序列 ,我们需要一次生成一个令牌(token),该令牌基于之前以生成的令牌进行计算获得:

    • \begin{aligned} \text { for } i & =1, \ldots, L: \\ x_i & \sim p\left(x_i \mid x_{1: i-1}\right)^{1 / T}, \end{aligned}

      其中 $T≥0$ 是一个控制我们希望从语言模型中得到多少随机性的温度参数:

    • T=0:确定性地在每个位置 i 选择最可能的令牌 $x_{i}$

    • T=1:从纯语言模型“正常(normally)”采样

    • T=∞:从整个词汇表上的均匀分布中采样

  • "退火"

    • 这个术语来源于冶金学,其中热的金属会逐渐冷却以改变其物理性质。在这里,它类比的是对概率分布进行调整的过程。"退火"分布是通过将原始概率分布的每个元素都取幂 1/T ,然后重新标准化得到的新分布。当 T ≠ 1时,这个过程会改变原始概率分布,因此从"退火"分布中采样得到的结果可能与对每一步的条件分布应用 T 并进行迭代采样的结果不同。

大模型相关历史

  • 信息熵的定义

    • H(p, q)=-\sum_x p(x) \log q(x)

      一个文本出现的概率越高,信息量越少

  • 交叉熵

N-garam模型

  • 基于序列的最后n-1个字符预测下一个字符

神经语言模型

  • 使用神经网络统计字符概率

其他

  • N-gram模型计算高效,统计效率低下。

  • 神经语言模型统计高效,计算上低效的。

  • 算力提升,神经语言模型成为主导。

大规模语言模型的风险

可靠性

  • 给出的答案不一定可靠,而且难以分辨

社会偏见

  • 训练数据中有社会偏见

有害性

  • 模型会产生冒犯性内容

虚假内容

  • 被用于制造虚假信息

安全性

  • 训练数据从互联网来,会被数据攻击

法律考虑

  • 涉及到知识产权、隐私等问题

思维导图:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值