(202312)so-large-lm:Task01引言

最新推荐文章于 2024-07-23 17:06:04 发布

早上真好

最新推荐文章于 2024-07-23 17:06:04 发布

阅读量435

点赞数 9

分类专栏：参与dw开源学习文章标签：语言模型学习方法 transformer

本文链接：https://blog.csdn.net/raw_inputhello/article/details/134957885

版权

26 篇文章 2 订阅

订阅专栏

前言

感谢开源学习的组织者与活动的发起者为我们带来so-large-llm这一可谓大语言模型的通识课。原项目地址为so-large-lm。

基础比较烂，所以我会用我能理解，也就是大多数人能理解的方式通俗阐述。如果有什么过于离谱而文盲的解释或类比，请你随便指出。

语言模型其实是序列的概率分布，大概也就是通过对一段散开的字词进行排列，然后展现出出现概率最大的一种。
试想现在这个模型的词库很大，那么它就有可能给出很多符合常理的句子；但是这些句子是不需要的，我们现在在已经具有一小段序列的情况下只筛选出其中一部分字词，然后再在这些选择出的字词中进一步选择，就减少了计算量而出现了更合理并且语义明确的序列。
温度可以控制生成中的变异量；这个词语还挺形象的。用分子动理论来类比的话就像是升高温度后整个气体变得更活跃了，更能出现奇怪的组合。

大模型的熵：熵实际上是一个衡量将样本 $x \sim p$ 编码（即压缩）成比特串所需要的预期比特数的度量。熵的值越小，表明序列的结构性越强，编码的长度就越短。直观上是符合心理的（因为不懂信息学，只能这么说TAT）。
N-gram模型：预测依赖于最后的n-1个字符，已经是有那味了。2007年Brants等在2万亿个tokens上训练了一个5-gram模型用于机器翻译。
神经语言模型：有两个关键发展，循环神经网络（RNN）和Transformer架构。目前后者可以说是LLM发展到这样的大功臣。
LLM发展和算力的发展是分不开的。

技术层面上本课专注于自回归语言模型。
应对广泛的应用领域以及对于大模型快速发展所产生一些问题的担忧。

分为四个层次

关注