![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
theoreoeater
这个作者很懒,什么都没留下…
展开
-
使用gensim的doc2vec生成文档向量
doc2vec是word2vec的延伸,同样使用无监督方法利用上下文对词语和文档向量进行训练。doc2vec的输入是TaggedDocument向量,它包括word_list和tags两部分,word_list是文档的分词列表,如['火箭','是','总冠军',]。tags是文档的标签列表。比如可以用如下代码将自己的数据读入内存:def get_dataset(): data = pd.r...原创 2018-05-09 16:15:52 · 7951 阅读 · 1 评论 -
【论文笔记】Effective Approaches to Attention-based Neural Machine Translation
论文链接 本文针对NMT任务使用的attention机制提出两种结构,global attention将attention作用于全部输入序列,local attention每个时间步将attention作用于输入序列的不同子集。前者被称为soft attention,其原理和论文1一样,后者是hard attention和soft attention的结合,该文通过context vector...原创 2018-05-31 13:49:53 · 2684 阅读 · 1 评论 -
【Tensorflow】Bi-LSTM文本分类
用于训练的计算图#训练图train_graph = tf.Graph()with train_graph.as_default(): #输入文本维度为[time_step,batch_size,embedding_size] encoder_inputs = tf.placeholder(shape=[None,None,input_size], dtype=tf.float3...原创 2018-06-07 10:50:01 · 4821 阅读 · 0 评论 -
【论文笔记】neural machine translation by jointly learning to align and translate
1.neural machine translation by jointly learning to align and translate 这篇文章是将attention机制应用于机器翻译上,普通的seq2seq模型要将输入文本的信息编码至固定长度的隐向量中,当面对长文本时会损失许多信息,那么就要利用attention对输入文本的不同片段根据其重要程度分配不同的权重,使得信息被更有效地编码...原创 2018-05-30 14:31:24 · 1545 阅读 · 1 评论 -
【Tensorflow】文本自编码器
使用文本序列的word2vec词向量作为seq2seq模型的输入和输出,训练得到中间层的文本特征表示,可进一步进行分类任务等,encoder和decoder都使用LSTM。import tensorflow as tfimport numpy as npimport refrom gensim.models import Word2Vecimport pandas as pdimport...原创 2018-05-30 09:57:18 · 2740 阅读 · 5 评论 -
【论文笔记】GloVe: Global Vectors forWord Representation
摘要 词向量的成功捕捉到了细粒度的语义信息和语法规则,本文提出的方法融合了主流模型的优点:全局矩阵分解(LSA)和局部内容窗口(Word2vec),充分利用统计信息使用词共现矩阵中频率非零的元素来训练模型。引言 使用向量空间来表示自然语言可以做为许多NLP任务(文本分类,信息检索......)的特征输入,主流的两种方法是基于全局矩阵分解的LSA和局部窗口信息的Word2vec。LSA虽...原创 2018-05-22 21:06:38 · 4224 阅读 · 1 评论 -
【论文笔记】Bag of Tricks for Efficient Text Classification
这篇文章写的是Facebook推出的FastText,能够快速在海量文本数据上进行分类任务和表示学习,可以用一个普通的多线程CPU在十分钟内训练百万级的语料,一分钟内将五十万文本分类到三十万个类别中。 最近几年深度学习在NLP任务上虽取得了显著地成就,但此类模型无论是训练还是测试阶段都因过长的时间消耗很难应用在更大的语料数据上。与此同时一些简单的线性模型在保持速度效率的同时也有不俗的...原创 2018-05-25 10:22:33 · 1947 阅读 · 0 评论 -
【论文笔记】文本分类(text classification)论文整理
Distributed Representations of Sentences and Documents这篇文章借鉴了word2vec的方法来训练长文本向量,如句子,段落,文档。首先随机初始化文本向量和文本中词的词向量,利用skip-gram和CBOW模型(在文中称为PV_DM和PV_DBOW模型)一起训练词向量和文本向量。论文链接:https://cs.stanford.edu/~quocl...原创 2018-05-04 16:49:23 · 5275 阅读 · 0 评论 -
【论文笔记】命名实体识别(NER)论文整理
Bidirectional LSTM-CRF Models for Sequence Tagging论文链接:https://arxiv.org/abs/1508.01991这篇文章比较了NLP几个经典任务:词性标注,命名实体识别上的模型,包括CRF,LSTM,Bi-LSTM,LSTM-CRF,Bi-LSTM-CRF,Bi-LSTM-CRF在这几个任务上取得了最好的准确度和健壮性,对词语特征工程的...原创 2018-05-03 10:23:27 · 7554 阅读 · 0 评论