![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
落难Coder
这里是我的笔记,而你恰好看到
展开
-
将扩充的中文 tokenizer 模型应用于自己的LLM模型上(embedding参数修改)
在中我们详细讲述了如何基于自己的数据对tokennizer模型进行训练调整。在本文中,我们将继续讲述基于SentencePiece扩充LLaMa的词表,但是扩充了词表后的下一步该怎么操作呢?如何将新增的token在模型的embedding层和lm_head层初始化呢?原创 2024-08-06 21:44:11 · 97 阅读 · 0 评论 -
手把手带你了解和实践扩充 LLaMA 大语言模型的 tokenizer 模型(实现中文token过程)
开始训练,这里面有几个参数要注意一下,model_type分词算法选择bpe,split_digits为True,byte_fallback为True,和LLaMa 保持一致,max_sentence_length设置的大一点,更多参数解释可以查看:https://zhuanlan.zhihu.com/p/655281268 和 https://zhuanlan.zhihu.com/p/639144223。目前,大语言模型呈爆发式的增长,其中,基于llama家族的模型占据了半壁江山。原创 2024-08-06 21:40:02 · 330 阅读 · 0 评论 -
Transformer 理论与代码实践,一步一步详细剖析
在现在的大模型时代,核心还得是Transformer,Transformer是由谷歌于2017年提出,最初用于机器翻译的神经网络模型,在此衍生出了一系列的模型,BERT、T5、GPT、GLM、BLOOM、LLaMa等等从小模型到大模型都少不了他。Transformer最经典的模型结构图还得是论文中原汁原味的图关于这张图的讲解在其他的回答中有很多,简单总结下,左边是编码器(Encoder),右边是解码器(Decoder),N× 表示进行了 N 次堆叠。接下来分别对每个模块进行简述以及代码实现。原创 2024-08-06 21:35:12 · 554 阅读 · 0 评论