transformer
文章平均质量分 91
主要是transformer 学习和使用
mex_wayne
这个作者很懒,什么都没留下…
展开
-
NLP-transformer学习:(7)evaluate实践
hugging face 的 evaluate 功能实践原创 2024-09-22 21:45:03 · 549 阅读 · 0 评论 -
# NLP-transformer学习:(5)Bert 实战
是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP(Natural Language Processing,自然语言处理)任务中获得了新的state-of-the-art的结果推荐链接:其实说白了就是 transformer可以进行堆叠。原创 2024-08-26 01:14:53 · 838 阅读 · 0 评论 -
NLP-transformer学习:(6)dataset 加载与调用
huggingface 的 datasets 学习原创 2024-09-09 00:11:00 · 699 阅读 · 0 评论 -
NLP-transformer学习:(4)transformer 的 model
transformer 的结构为编码器(encoder) + 解码器(decoder)。encoder 接收输入,decoder 接收encoder 的输出。这里祭出transformer 经典结构其中的Multi-Head 就是著名的多头注意力机制,这个主力机制可以根据上下文有选择性的选择内容。对transformer 的讲解很多,我这里就不多赘述,不过笔者也会写一篇关于论文的阅读博文。原创 2024-07-05 03:51:30 · 717 阅读 · 0 评论 -
flash attention: Fast and Memory-Efficient Exact Attention with IO-Awareness
目前transformer 相关应用非常广泛,因此分享一篇关于flash attention的文章。这里为什么先分享flash attention?首先,之前的 attention优化都是基于计算和稀疏性,这篇文章直接从硬件构架角度思考,减少硬件的开销。其次,本文的效果好,直接从N2N^2N2的复杂度降为N,在不改变attention 结构的情下加速显然,甚至因为能增加输入的长度,使得效果有提升,所以在这里做一篇分享,欢迎交流。原创 2024-07-18 23:08:35 · 706 阅读 · 1 评论 -
NLP-transformer学习:(3)transformer的 tokenizer
本章节主要是对 transformer 里的tokenizer 进行学习,tokenizer 比较简单,欢迎交流原创 2024-07-01 01:15:35 · 1062 阅读 · 0 评论 -
NLP-transformer学习:(1)transformer基础
transformer 基础学习原创 2024-06-29 22:24:24 · 504 阅读 · 0 评论 -
NLP-transformer学习:(2)transformer的 pipeline
本文主要讲述了 如何使用transformer 里的很多任务(pipeline),我们用这些任务可做文本识别,文本翻译和视觉目标检测等等,并且写了实战用力和测试结果原创 2024-06-30 01:56:41 · 772 阅读 · 0 评论