NLP
文章平均质量分 64
菠萝哥~
互联网码农&nlp&机器学习&大模型
展开
-
如何评估大模型全参数微调需要的显存
模型的大小、批处理大小(Batch Size)、序列长度,以及是否采用了一些显存优化技术。模型的大小直接影响显存使用。例如,一个有110M参数的模型(如BERT-base)与一个有340M参数的模型(如BERT-large),在相同条件下,后者会消耗更多的显存。批处理大小增加意味着同时处理更多的数据,这会线性增加显存的需求。输入的序列长度越长,模型处理时占用的显存也就越多。这是因为模型必须处理并存储更多的中间状态数据。原创 2024-01-29 11:46:18 · 7090 阅读 · 2 评论 -
从零开始讲解LoRA——大语言模型的PEFT(Parameter-Efficient Fine-Tuning)系列
通过这种方式,可以使预训练模型在下游的微调任务当中,不用去学习全量的训练参数,因此大大降低了模型的训练参数量,同时降低了GPU内存的需求。LoRA的主要思想是在预训练模型的每一层中保持训练前权重不变,同时在每一层中注入可训练的秩分解矩阵,从而大大减少了针对下游任务的可训练参数数量。与模型质量相当或更好的表现:尽管LoRA具有较少的可训练参数、更高的训练吞吐量和与适配器不同的无额外推理延迟,但在RoBERTa、DeBERTa、GPT-2和GPT-3上的表现与完全微调相当或更好。的参数量为d*k个。原创 2024-01-17 19:40:52 · 1489 阅读 · 0 评论 -
为什么LLM都用的Decoder only结构?
现在的LLM的模型,都用的是 decoder的 架构,没有用encoder的,之前的google开发出了bert,后续出的T5的模型,都是很经典的模型,在NLU上的效果都很好,为什么现在的LLM都不用encoder结构了呢?原创 2024-01-13 17:36:19 · 672 阅读 · 0 评论 -
NLP中关于embedding相加的思考
NLP模型中,包括了传统的NLP模型以及bert、LLM等,都可以认为是有着类似傅里叶变化的能力的,即识别出信号波是由什么原始的信号波叠加的。因此,在模型的训练过程中,相加后的embedding结果仍然可以被模型所解耦以及识别。",题主提的问题大概意思是这样:BERT的input有三个embedding:Token embedding,Segment embedding, Position Embedding,这三个向量相加后,明明大小和方向都发生了改变,语义应该变了,为什么还能作为input的表征?原创 2023-10-12 15:18:43 · 144 阅读 · 0 评论