文献笔记
文章平均质量分 78
smallBrilliant
这个作者很懒,什么都没留下…
展开
-
在SQuAD2.0榜单上出现过的部分模型详解StructBert,T5,RoBERTa,RetroReader,ALBert
文章目录StructBertWord Structural ObjectiveSentence Structural ObjectiveT5Text-to-TextC4数据集——Colossal Clean Crawled Corpus (超大型干净爬取数据)试验结论RoBERTa: A Robustly Optimized BERT Pretraining Approach改进方法模型规模、算力与数据效果与总结ALBert改进方法Factorized embedding parameterizationC原创 2021-11-09 10:51:32 · 1742 阅读 · 1 评论 -
ERNIE,ERNIE2.0,Transformer-XL,XLNET
文章目录ERNIE实体级别的Mask其他细节Dialog embedding与bert对比ERNIE 1.0 做了什么ERNIE 2.0整体框架连续多任务学习任务一:词法级别预训练任务任务二:语言结构级别预训练任务任务三:语法级别预训练任务结论Transformer-XLVanilla Transformer Language ModelsTransformer-XL:循环机制Transformer-XL:传递方式Transformer-XL:相对位置编码Transformer-XL:最终形态总结XLNet原创 2021-11-04 12:40:47 · 632 阅读 · 0 评论 -
Bert之前的阅读理解模型
文章目录Multi-Hop机制Pointer networkR-net编码层:交互层GATED ATTENTION-BASED RECURRENT NETWORKSSELF-MATCHING ATTENTIONFusionNet编码层交互层输出层QANet整体结构结论Multi-Hop机制使context和question进行多次交互。One-Hop -> Multi Hop多次提取充足信息语义抽象化Multi-Hop的两种类型句子Attention的layer推荐Time原创 2021-10-29 14:30:08 · 293 阅读 · 0 评论 -
BI-DAF《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》笔记
编码层Character Embedding LayerChar-CNN,防止OOV词Word Embedding LayerGloveContextual Embedding Layer解决一词多义的问题。用LSTM进行编码。比如apple这个单词,可以做苹果,也可以作为手机。Highway Network调整单词嵌入和字符嵌入的贡献比,用来做平衡。前馈神经网络:将权重矩阵W与y相乘。在W*y中添加偏差b。对W*y应用非线性函数g,如Relu或Tanh。高速神经网络:只.原创 2021-10-29 14:27:54 · 128 阅读 · 0 评论 -
机器阅读理解之开山鼻祖Teaching Machines to Read and Comprehend
原文链接:Teaching Machines to Read and Comprehend数据的构建命名实体替换例子:The BBC will be closed将BBC替换成一个entity的标志,比如e01。之后去预测这个entity是哪个。构建了CNN和Daily Mail语料库:实体类,答案在原文中。不适用与训练答案推理型的问题。模型架构用两层的LSTM去编码原文和问题Attentive Reader左边对应的是原文的矩阵。右边对应的是问题矩阵。Impatient原创 2021-10-21 16:27:17 · 151 阅读 · 0 评论 -
PGN(Pointer-Generator Networks)
1典型的seq2seq1.1存在的一些问题从模型的路径上看,encoder到实际输出有一定距离,从此限制了反向传播。OOV(Out-of-vocabulary未登录词 ):摘要总结的结果有的时候并不准确,比如摘要的结果可能输出德国队以2-1比分击败阿根廷,但是实际比分是2-0,出现这个的原因是out-of-vocabulary words(OOV)的出现Word-repetition问题:摘要结果会出现repeat重复的信息,比如重复出现德国队击败阿根廷队PGN(Pointer-Genera原创 2021-10-19 16:17:09 · 845 阅读 · 0 评论