(202312)so-large-lm:Task01引言

前言

感谢开源学习的组织者与活动的发起者为我们带来so-large-llm这一可谓大语言模型的通识课。原项目地址为so-large-lm

要点总结

基础比较烂,所以我会用我能理解,也就是大多数人能理解的方式通俗阐述。如果有什么过于离谱而文盲的解释或类比,请你随便指出。

1 什么是语言模型

  • 语言模型其实是序列的概率分布,大概也就是通过对一段散开的字词进行排列,然后展现出出现概率最大的一种。
  • 试想现在这个模型的词库很大,那么它就有可能给出很多符合常理的句子;但是这些句子是不需要的,我们现在在已经具有一小段序列的情况下只筛选出其中一部分字词,然后再在这些选择出的字词中进一步选择,就减少了计算量而出现了更合理并且语义明确的序列。
  • 温度可以控制生成中的变异量;这个词语还挺形象的。用分子动理论来类比的话就像是升高温度后整个气体变得更活跃了,更能出现奇怪的组合。

2 大模型相关历史回顾

  • 大模型的熵:熵实际上是一个衡量将样本 x ∼ p x∼p xp 编码(即压缩)成比特串所需要的预期比特数的度量。熵的值越小,表明序列的结构性越强,编码的长度就越短。直观上是符合心理的(因为不懂信息学,只能这么说TAT)。
  • N-gram模型:预测依赖于最后的n-1个字符,已经是有那味了。2007年Brants等在2万亿个tokens上训练了一个5-gram模型用于机器翻译。
  • 神经语言模型:有两个关键发展,循环神经网络(RNN)和Transformer架构。目前后者可以说是LLM发展到这样的大功臣。
  • LLM发展和算力的发展是分不开的。

3 这门课的意义

技术层面上本课专注于自回归语言模型。
应对广泛的应用领域以及对于大模型快速发展所产生一些问题的担忧。

4 课程结构介绍

分为四个层次

  1. LLM对于我们是黑盒子,只是通过API进行访问,理解其行为
  2. 从训练数据的角度来了解大模型以及思考关于其中的道德与法律的问题
  3. 学习如何构建大语言模型,学习其模型架构和算法
  4. 按照这种思维去思考这种方法的扩展,引向多模态大模型。
  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

早上真好

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值