![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
绝不认输的程序媛
你的负担将变成礼物,你受的苦将照亮你的路。
展开
-
BERT-小记
论文:Google 2018 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https://arxiv.org/pdf/1810.04805.pdf)1 前言原创 2020-12-24 20:59:11 · 160 阅读 · 1 评论 -
OpenAI GPT-小记
论文:OpenAI 《Improving Language Understanding by Generative Pre-Training》1 前言监督学习需要大量的,有标记的数据,而收集数据,对数据进行标注耗时又费力。此外,无监督学习解决了人工标注数据的瓶颈,它在可获取原始数据增多的趋势下,仍能够实现很好的扩展。因此。本文提出了一种对自然语言理解任务的半监督方法,融合了无监督的预训练(pre-training)和有监督的微调(fine-tuning)过程,目标是学习一个通用的语言表示,可以经过很小的原创 2020-12-24 10:41:54 · 383 阅读 · 0 评论 -
ELMo-小记
论文:2018 NAACL 《Deep Contextualized Word Representations》1 优势能学习单词句法和语义,学习不同语言环境中的差异(即一词多义)。2 模型2.1 BiLM(双向语言模型)利用前k-1个token来预测第k个token:又添加了另一个方向的预测,利用k+1至N个token来预测第k个token:双LM结合了前向和后向的LM:2.2 ELMoELMo就是将原始输入进行embedding之后再送入上述模型,用上述模型的每一层输出来作为词原创 2020-12-23 14:27:12 · 90 阅读 · 0 评论 -
Transformer-小记
Transformer模型分为两大部分,分别是编码器encoder和解码器decoder,如图:编码器由六个相同的层堆叠在一起,解码器也由六个相同的层堆叠在一起:每一层编码器都由两个支层:self-attention层(自注意力)和feedforward(前向网络),从编码器输入的句子首先经过self-attention层,对每个单词编码时会关注句子中的其他单词。self-attention层的输出流向feedforward层。解码器增加了一个attention层,该层有助于解码器能够关注到输入句子原创 2020-12-22 22:01:32 · 163 阅读 · 0 评论