![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 88
自然语言处理,NLP
lokvke
It is a secret.
(不定时更新)
展开
-
Llama模型结构解析(源码阅读)
llama模型结构源码解析原创 2023-08-29 09:58:58 · 11523 阅读 · 12 评论 -
LoRA指令微调——源码解析
(本次博文的LoRA代码主要基于lit-llama工程)原创 2023-07-13 10:29:40 · 3475 阅读 · 5 评论 -
基于LLAMA-7B的lora中文指令微调
由于原始llama-7b指令的vocab_size为32000,而下载的中文llama-7b的词典大小为49953,需要对其进行修改。转换完毕后,在刚才设置的输出路径,会得到lit-llama.pth文件(26G),在上一级目录有tokenizer.model文件。切换到lit-llama的工程,修改scripts/convert_hf_checkpoint.py,修改路径,2)pretrained_path:转换之后的中文lit-llama.pth路径。4)out_dir:保存lora权重文件的路径。原创 2023-07-03 09:26:33 · 3426 阅读 · 10 评论 -
快速训练自己的大语言模型:基于LLAMA-7B的lora指令微调
直接打开链接 https://raw.githubusercontent.com/tloen/alpaca-lora/main/alpaca_data_cleaned_archive.json,然后全选页面复制,再保存到新建的文件里。这里我们要基于LLAMA-7B做指令微调,所以要先下载模型权重,并作一系列转换。可以看到,经过指令微调之后,模型已经可以正常回答我们的问题了。(当然,这里可能会遇到网络问题,安装不了lightning)ps:其他细节可以参考工程的README,写的很清楚~原创 2023-06-27 12:58:57 · 13159 阅读 · 37 评论 -
NLP之不简单笔记:啥是BERT
目录1. what is BERT?2. Structure2.1 self-attention2.2 multi-head2.3 Positional encoding and Positional embeddings3. Pre-training and finetune3.1 pre-training3.2 fine-tune4. Example and practise4.1 下载bert的预训练中文模型4.2 single sentence4.3 two sentences4.4 总结1. w原创 2020-07-22 13:40:37 · 686 阅读 · 1 评论 -
NLP之简单笔记:啥是attention model
what is attention model?在seq2seq中包含encoder和decoder,输入通过encoder得到中间语义编码c,然后c通过decoder再得到输出。直接上图(参考https://zhuanlan.zhihu.com/p/28054589)...原创 2019-11-06 00:24:47 · 179 阅读 · 0 评论 -
NLP之简单笔记:啥是seq2seq
what is seq2seq?seq2seq是RNN的变种,是一种N VS M的模型,这种结构又叫Encoder-Decoder模型,也可以称之为seq2seq模型。直接上图(参考https://zhuanlan.zhihu.com/p/28054589)如图所示,左边部分称为Encoder,生成c;右边的部分称为Decoder,c通过Decoder得到输出y也可以是另一种结构,如下...原创 2019-11-04 20:47:02 · 352 阅读 · 0 评论