nlp之家
文章平均质量分 88
Muasci
keep open
keep real
keep smiling
不要忘记命运掌握在自己的手里,确保做的每一件事,都是自己选择去做的,成为时间这敌人的主宰,成为自己的存在。记得常怀愤怒,并把它转化成热情,选择一切、拥抱一切、坚持一切、把一切视作敌人、战胜一切。<----曾经的发言( ╯□╰ )
展开
-
[NLP]——BPE、WordPiece、Unigram and SentencePiece
目录前言Byte Pair Encoding(BPE)WordPieceUnigram前言单词级别的tokenizer有以下缺点:单词变体算做不同单词,无法体现它们的关联本文从代码层次解析四种常用的tokenizerByte Pair Encoding(BPE)提出论文:Neural machine translation of rare words with subword units以下讲解基本参考:Byte Pair Encoding假设拥有一个含有很多单词的语料,首先统计各个单词原创 2021-05-18 22:33:31 · 1203 阅读 · 0 评论 -
[NLP]——The Annotated Transformer(实战篇)
目录前言训练TOOLSBatches and MaskingTraining LoopTraining Data and Batching前言[NLP]——The Annotated Transformer(模型篇)训练TOOLSBatches and Masking两个mask: 1. padding(here) 2. future words(subsequent_mask)class Batch: "Object for holding a batch of data with原创 2021-05-06 22:26:54 · 450 阅读 · 0 评论 -
[NLP]——The Annotated Transformer(模型篇)
背景有很多为了减少序列计算而引出的模型:Neural GPU\ByteNet\ConvS2S,它们使用卷积神经网络来并行化的计算。然而,这些模型的计算次数随着输入和输出间的距离增长而增长,带来了长期依赖问题。Transformer的计算次数是常数,但是是以减弱了位置信息为代价,具体的,它使用Multi-Head Attention来实现。self-attention应用广泛,Transformer是第一个完全依赖于self-attention的transduction model,关于transduct原创 2021-05-04 17:01:39 · 725 阅读 · 0 评论 -
[NLP]——Transformer中的attention为什么要做scale?
前言说起Transformer的self-attention,很容易想到下面的公式:Attention(Q,K,V)=softmax(QKT/dk)VAttention(Q,K,V) = softmax(QK^T/\sqrt{d_k})VAttention(Q,K,V)=softmax(QKT/dk)V假设X是输入,分别经过WQW_QWQ、WKW_KWK和WVW_VWV映射得到QQQ、KKK和VVV,【dkd_kdk=Q.size(-1)=K.size(-1)】,通过QQQ和KKK的dot原创 2021-04-30 12:42:06 · 3773 阅读 · 0 评论 -
[NLP]——What is Few-Shot Learning?
问题定义背景:希望模型在学习了一定类别的大量数据后,对于新的类别,只需要少量的样本就能快速学习做法:每一次训练,训练集(支撑集)是一个meta-task,一个meta-task包含CxK个数据,C表示类别、K表示每一个类别的数据量。这样的训练机制使得模型去学习不同meta-task中的共性部分。测试的时候,面对的是不同的类别。分类(in CV)Model Based参考小样本学习(Few-shot Learning)综述...原创 2021-04-06 12:40:05 · 300 阅读 · 0 评论