nlp
solejay
这个作者很懒,什么都没留下…
展开
-
《Joint Learning of Named Entity Recognition and Entity Linking》论文笔记
Joint Learning of Named Entity Recognition and Entity Linking2019 ACLAbstract大多数 EL 方法忽视实体识别部分,假定正确的实体已经被识别出来。这篇论文对 NER 和 EL 进行联合学习,来利用他们之间的相关性,得到一个更健壮和更具通用性的系统。实验发现联合学习比单个学习效果更好,并且在 NER 和 EL 任务达到 SOTA。1 IntroductionNER 和 EL 是两个基础的 NLP 任务,NER 负责检测和识别命原创 2020-10-06 10:31:11 · 886 阅读 · 0 评论 -
《Attention is all you need》论文笔记
Abstract一般来说,重要的 sequence transduction 模型都是基于包含 Encoder,Decoder 的复杂的 RNN 和 CNN 的。最好的模型是通过一个 attention 机制来连接 Encoder,Decoder。本文提出一种简单的架构——Transformer,只用注意力机制,和 CNN、RNN 没有关系。在两个翻译任务实验证明该模型又快又好WMT 2014 Englishto-German 翻译任务 BLEU 为 28.4,比当下 SOTA 高 2用 8 个原创 2020-09-09 15:43:03 · 306 阅读 · 0 评论 -
《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记
个人总结本文最大贡献是提出了注意力机制,相比于之前 NMT(Neural Machine Translation) 把整个句子压缩成一个固定向量表示的方法,对不同位置的目标单词计算每个输入的不同权重,这样能够更好地捕捉目标词相关的输入信息。ABSTRACT最近的 NMT 模型是 encoder-decoder 架构,编码器将源句子编码为固定长度的向量,解码器根据该向量生成翻译。本文推测原句编码到一个固定长度的向量是一个瓶颈,然后文章提出了改进:在之前模型的基础上自动寻找目标词相关的源句子的部分,而不是原创 2020-08-18 14:39:59 · 324 阅读 · 0 评论 -
《Sequence to Sequence Learning with Neural Networks》阅读笔记
AbstractDNNs 可用于各种复杂的学习任务并取得很好的效果,但是 DNNs 不能用于序列到序列的映射。这篇论文提出了一种端到端(end-to-end)的神经网络模型,来学习这种映射关系。作者用一个多层的 LSTM 网络来将输入序列映射(编码)为一个固定大小维度的向量,再用另外一个多层的 LSTM 网络来解码该向量为输出序列。在 WMT-14 英语 - 法语的翻译任务中取得很好的结果(BLEU 34.8)。 同时,作者发现模型对句子的主动与被动语态并不敏感,但是对输入词的顺序很敏感;逆转输入序列的顺原创 2020-08-10 14:20:50 · 444 阅读 · 0 评论 -
李宏毅-ELMO, BERT, GPT讲解笔记
背景知识NLP 中词的表示one-hot embedding(1-of-N Encoding)缺点:词汇之间的关联没有考虑,因为不同词之间的距离都是一样的word classword embedding(word2vec)缺点:一词多义的问题无法解决Have you paid that money to the bank yet?They stood on the river bank to fish.上面两句话中的 bank 显然不是同一意思,因此用同一个 embedding原创 2020-05-25 16:52:25 · 638 阅读 · 0 评论 -
Transformer详解
传统 RNN 存在问题处理 Seq2seq 最常用的就是 RNN。RNN 的问题在于无法 Parallel (并行处理),可以用 CNN 解决这个问题,但是 CNN 能够考虑的特征向量非常少,而解决这个问题又需要通过再次叠加 CNN 来解决。为了解决这个问题,引入了 Self-Attention Layer,其输入是一个 sequence 输出也是一个 sequence,能够达到跟 RNN 一样的效果,输出 b 可以并行计算出来。Self-attention 机制其技术最早出现的那篇文章就是 A原创 2020-05-19 16:56:54 · 1659 阅读 · 1 评论 -
注意力机制学习
Attention 就是对输入整体的各个部分分配不同的权重,每一个位置的输出由输入的不同权重加权求和得到attention 工作实质:对应于机器翻译时阶段 1 :zzz 对应于 Query,hhh 对应于Key,Q 与 K 进行相似度计算得到权值阶段 2:对于求得的 α\alphaα 进行 softmax 归一化得到不同权重阶段 3:Attention Value 等于 权重 α^\hat \alphaα^ 和输入 hhh 对应的乘积求和。这里 hhh 对应于 Valuea原创 2020-05-18 10:18:36 · 403 阅读 · 0 评论 -
吴恩达深度学习课程第五课笔记——序列模型
文章目录第五门课 序列模型 (Sequence Models)第一周 循环序列模型(Recurrent Neural Networks)1.1 为什么选择序列模型?(Why Sequence Models?)1.2 数学符号(Notation)1.3 循环神经网络模型(Recurrent Neural Network Model)1.4 通过时间的反向传播(Backpropagation thro...原创 2020-04-27 20:29:33 · 1884 阅读 · 0 评论 -
吴恩达深度学习课程第三课笔记——结构化机器学习项目
文章目录第三门课 结构化机器学习项目(Structuring Machine Learning Projects)第一周 机器学习(ML)策略(1)(ML strategy(1))1.1 为什么是 ML 策略?(Why ML Strategy?)1.2 正交化(Orthogonalization)1.3 单一数字评估指标(Single number evaluation metric)1.4 满足...原创 2020-04-27 20:27:23 · 608 阅读 · 0 评论 -
李宏毅RNN笔记
文章目录RNNLSTMRNN 的训练RNN 应用RNN对于 Slot Filling 问题,需要识别出句子中的某些特定词,比如我要在十一月二号到台北去,识别出目的地是台北,时间是十一月二号。对词进行编码的方法可以采用 1-of-N encoding 和 word hashing 或者其他高级方法,词语表征成向量后丢到神经网络里判断词属于每个 slot 的概率,比如台北属于目的地的概率和属于时间...原创 2020-04-23 21:07:03 · 326 阅读 · 0 评论 -
百万级别中文文本分类
文章目录0.split_word.py——分词1.concat_data.py——拼接2.train_model.py——模型训练3.result_judge.py——结果评判其他github 项目地址从搜狐上爬取1042326篇新闻文本,其中包含10个类别:automobile、culture、dressing、entertainment、finance、life、medical、milita...原创 2020-02-19 15:09:36 · 1123 阅读 · 0 评论 -
词袋模型和CountVectorizer类详解
词袋模型词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。词袋模型本质是一种用机器学习算法对文本进行建模时表示文本数据的方法,也是 ngram 中的 unigram。词袋模型的三部曲分词(tokenizing)统计...原创 2019-10-17 22:20:25 · 2799 阅读 · 0 评论