白话大模型
文章平均质量分 90
尽可能用通俗的表述来解释大模型的以及相关的知识点。
喵懂AI
这个作者很懒,什么都没留下…
展开
-
我的超迷你大模型会讲故事啦|从零手搓中文大模型|Day05
虽然有些逻辑性的问题,但是整体来说,生成文本的连贯性是越来越好的。而且几乎没有任何明显的语法错误,这一点是非常厉害的。也算是验证了一下微软的里关于小模型(SLM)也能生成连贯文本的结论。原创 2024-09-02 17:33:09 · 705 阅读 · 1 评论 -
从零手搓中文大模型|Day04|模型参数和训练启动|我的micro大模型预训练成功跑起来啦
配置得到一个44M(0.044B)的超micro大模型,已经成功开始燃烧🔥GPU,后面会更新一下训练情况。原创 2024-08-27 18:06:28 · 802 阅读 · 0 评论 -
从零手搓中文大模型|Day02|Tokenizer & BPE
大模型的Tokenizer/BPE原理介绍和实践原创 2024-08-21 10:30:51 · 1006 阅读 · 0 评论 -
从零手搓中文大模型|Day01
从零手搓中文大模型Day01,第一期打卡,还望大家多多关照,欢迎监督催更。原创 2024-08-19 09:33:37 · 798 阅读 · 0 评论 -
用大白话讲清楚,大模型里的Next Token Prediction究竟是什么?
首先,由于没有了下文和候选项的约束,预测结果的多样性会大大提高,哪怕是同一个上文也可以有多种 next token 的结果,有点像单选变多选的感觉。而再回过头来看NTP任务的设定,其特殊就在于填空时我们总是只能看到「左边的上文」,也就是前面说了什么,而没有任何「下文」的约束。如果让我们来判断下一个token最适合填什么,比较常见的选择可能会是:「歌(手)」,「演(员)」,「艺(人)」等等。巨量的「题库」是大模型生成能力习得的关键之一,另一个关键是模型的参数量(大家不妨简单地类比为脑神经元的数量)。原创 2024-08-15 08:55:30 · 1027 阅读 · 0 评论