![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 88
nlp相关应用
雾重烟秋
这个作者很懒,什么都没留下…
展开
-
Transformer实战——摘要生成
本文借助Huggingface Tranformer库完成一个摘要生成任务,参考自,在本文,将展示如何使用简单的加载数据集,同时针对相应的任务使用transformer中的Trainer接口对模型进行微调。这里解决的是摘要生成任务。本文的结构和Transformers官方文档一样,处理的文本也是英文文本,这里附上一个中文文本的很好的教程,github仓库为只要预训练的transformer模型包含seq2seq结构的head层,那么理论上可以使用各种各样的transformer模型,解决任何摘要生成任务。原创 2024-06-26 17:26:20 · 1202 阅读 · 0 评论 -
大模型性能优化KV Cache
KV Cache只适用于Decoder架构,因为有Causal Mask的存在,如果是Encoder,处理的是输入序列,是一次性完成整个序列attention的计算,并不像Decoder一样有自左向右的重复性的计算,Encoder由于其一次性和并行性,用不上KV-Cache,而解码器由于其自回归性,KV Cache是很有用的。KV Cache的本质就是避免重复计算,把需要重复计算的结果进行缓存,生成式模型的新的token的产生需要用到之前的所有token的。,在计算注意力的时候是当前的。原创 2024-06-26 19:46:34 · 663 阅读 · 0 评论 -
transformer模型的参数量和计算量
大规模语言模型(Large Language Model, LLM)的大体现在两个方面:模型参数规模大,训练数据规模大。以GPT3为例,参数量为1750亿,训练数据达到了570GB。进而,训练大语言模型面临两个主要挑战:显存效率和计算效率。现在业界的大语言模型都是基于transformer模型的,模型结构主要是encoder-decoder(代表模型是T5)和decoder-only(分为Causal LM——代表模型GPT,Prefix LM——代表模型GLM)。原创 2024-06-26 13:16:46 · 715 阅读 · 0 评论 -
LLM主流架构和模型
本文参考自和Huggingface中的ModelCard(原创 2024-06-22 22:43:12 · 775 阅读 · 0 评论 -
NVIDIA GPU参数
RTX 4090是NVIDIA的最新旗舰级游戏显卡,基于AD102架构,拥有高达76个SM单元和87个Tensor核心。A100是NVIDIA的下一代数据中心GPU,具有6912个CUDA核心和48个SM(Streaming Multiprocessor)单元,支持FP32、FP16和TF32等计算精度。它具有32GB内存,支持半精度(FP16)和单精度(FP32)计算,可提供高吞吐量和低延迟的计算性能。它拥有较少的CUDA核心数和较小的内存容量,但仍然能够提供较好的AI和HPC性能。原创 2024-06-23 18:16:36 · 680 阅读 · 0 评论 -
Pytorch编写Transformer
本文参考自在学习了图解Transformer以后,需要用Pytorch编写Transformer,下面是写代码的过程中的总结,结构根据图解Transformer进行说明。原创 2024-06-19 21:28:21 · 1341 阅读 · 0 评论 -
图解Transformer学习笔记
教程是来自。原创 2024-06-15 10:07:11 · 1298 阅读 · 0 评论 -
图解Attention学习笔记
教程是来自。原创 2024-06-14 16:24:30 · 988 阅读 · 0 评论 -
Training language models to follow instructions with human feedback 论文阅读
语言模型越大并不意味着它能更好的理解用户的意图,因此在这篇论文中,展示了根据人的反馈对模型进行微调,使得语言模型能够在各种人物上更好的理解用户的意图。在评估中,1.3B参数的InstructGPT模型的输出比175B GPT-3的输出更受欢迎,尽管参数少了100倍。此外,InstructGPT模型虽然在公共的数据上的效果有所降低,但是真实性和减少有害方面生成的能力提升。论文表明,尽管InstructGPT仍然会犯一些简单的错误,但根据人类反馈进行微调是能够理解人类意图的一个有效的方式和方向。原创 2024-06-14 08:36:54 · 857 阅读 · 0 评论 -
NLP实战入门——文本分类任务(TextRNN,TextCNN,TextRNN_Att,TextRCNN,FastText,DPCNN,BERT,ERNIE)
本文参考自,是为了进行NLP的一些典型模型的总结和尝试。原创 2024-06-09 23:18:45 · 2020 阅读 · 0 评论 -
NLP基础知识讲解比较清楚的文章
这里作为网址记录,用于自己学习。原创 2024-06-07 17:26:35 · 274 阅读 · 0 评论 -
人类语言处理nlp部分笔记——四、GPT3
GPT-3是一个language model,它的参数量相当巨大,是ELMO的2000倍。原创 2024-06-07 17:10:15 · 553 阅读 · 0 评论 -
人类语言处理nlp部分笔记——三、BERT和它的家族-ELMo,BERT,GPT,XLNet,MASS,BART,UniLM,ELECTRA等
参考自李宏毅课程-人类语言处理。原创 2024-06-07 16:51:17 · 982 阅读 · 0 评论 -
人类语言处理nlp部分笔记——二、BERT和它的家族-介绍和微调
这里所说的pre-train model是输入一串tokens,能够输出一串vectors,且每个vector可以表示对应的语义的模型,这些vectors也被称作为embeddings。以前常用的模型有word2vec,Glove等,这里并没有详细介绍,之后需要单独去看,由于英文单词太多了,只要来一个新单词,整个embedding的模型就需要重新train,为了解决这个问题,有了fasttext。原创 2024-06-07 12:36:57 · 1058 阅读 · 0 评论 -
人类语言处理nlp部分笔记——一、NLP任务总览
参考自李宏毅课程-人类语言处理。原创 2024-06-07 10:50:12 · 1235 阅读 · 0 评论 -
course-nlp——8-translation-transformer
本文参考自https://github.com/fastai/course-nlp。原创 2024-06-06 21:30:55 · 702 阅读 · 0 评论 -
course-nlp——7-seq2seq-translation
本文参考自https://github.com/fastai/course-nlp。原创 2024-06-06 21:15:39 · 893 阅读 · 0 评论 -
course-nlp——6-rnn-english-numbers
本文参考自https://github.com/fastai/course-nlp。原创 2024-06-06 19:09:24 · 1179 阅读 · 0 评论 -
course-nlp——5-nn-imdb
在 NVIDIA RTX-2070 GPU 上,这大约需要半小时,,,,,,,,learn: ...alpha: 2.0learn: ...clip: None此时我们已经超越了 2017 年(迁移学习之前)的最先进水平!原创 2024-06-06 17:13:26 · 1226 阅读 · 0 评论 -
course-nlp——4-regex
正则表达式是一种模式匹配语言。您可以写 [0-9] 或 \d,而不是 0 1 2 3 4 5 6 7 8 9它是领域特定语言 (DSL)。功能强大(但语言有限)。您还了解哪些其他 DSL?SQLMarkdownTensorFlow正则表达式在从文本(例如代码、日志文件、电子表格甚至文档)中提取信息时非常有用。虽然形式语言背后有很多理论,但以下课程和示例将探索正则表达式的更实际用途,以便您尽快使用它们。原创 2024-06-06 11:29:57 · 1805 阅读 · 0 评论 -
course-nlp——2-svd-nmf-topic-modeling
本文参考自。原创 2024-06-05 22:14:01 · 1024 阅读 · 0 评论