NLP
关于自然语言处理
lijfrank
Life is too short, recording the fragments of studying.
展开
-
BERT直观理解
BERT架构图 简单解释一下BERT的架构图。位置向量解决了时序问题(RNN不能并行的执行,只能一个一个的来,但是不一个一个的来,时序即word的先后顺序,怎么处理呢,位置向量就解决了);Self-Attention解决RNN不能并行的问题,multi-head可以提取到多种语义的层次表达,这一部分是核心;接着将向量层的数据(向量表示)和Mutil-Head-Attention的数据进行合并,这个操作叫残差连接,为了使下一层不比上一层差,其中归一化(标准化)的操作是为了更好的求导,防止梯度消失,还能原创 2020-06-05 23:14:28 · 951 阅读 · 0 评论 -
BERT简单理解-入门
简介BERT模型来自谷歌团队的paper——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,它在11个NLP任务中刷新了成绩,效果非常好,非常惊人。但是,这项工作不是很好复现,如果没有足够的资源就不要想了 。之前,利用预训练的语言表征来完成下游NLP任务的研究,可以概括为两类:feature-based和fine-tuning。feature-based类别比如ELMo,fine-tuning原创 2020-05-31 23:36:06 · 1854 阅读 · 0 评论 -
Attention机制
想要看懂时下流行的Bert,必须要先弄懂Transformer,弄懂Transformer还得搞清楚什么是Attention。概述Attention机制之所以能够迅速发展,主要是它解决了很多难题,它的总体思路为从关注全部到关注重点。主要有以下特点:效率高Attention 通过选择性聚焦,一定程度上解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。效果好在MT、QA、情感分析、POS、parsing和对话等任务中使用at原创 2020-05-30 00:50:15 · 350 阅读 · 0 评论 -
XLNet 简单介绍
XLNet 是一个类似 BERT 的模型,而不是完全不同的模型。但这是一个非常有前途和潜力的。总之,XLNet是一种通用的自回归预训练方法。18年底谷歌爸爸推出了bert,该模型一经问世就占据了nlp界的统治地位,如今CMU和google brain联手推出了bert的改进版xlnet。在这之前也有很多公司对bert进行了优化,包括百度、清华的知识图谱融合,微软在预训练阶段的多任务学习等等,但...原创 2020-02-22 15:39:09 · 783 阅读 · 0 评论 -
Transformer介绍
前言谷歌推出的BERT模型在11项NLP任务中夺得STOA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。Transformer模型最早的介绍来自谷歌的paper——《Attention is all you need》,最早是用于机器翻译任务,当时达到了STOA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-att...原创 2020-02-18 23:31:44 · 7056 阅读 · 1 评论 -
word2vec理解
通俗理解word2vec https://www.jianshu.com/p/471d9bfbd72f原创 2019-07-25 23:46:48 · 227 阅读 · 0 评论