排序:
默认
按更新时间
按访问量

【算法】字符串编辑距离

    字符串的编辑距离即Levenshtein距离,指在两个字符串之间由其中一个字符串通过插入、删除、替换的编辑操作转换为另一个字符串的最小代价,可以当作距离一样来衡量两个字符串之间的相似程度,距离越大则相似程度越低,距离越小则相似程度越高。比如求takers和lakers之间的编辑距离,设插入...

2018-07-14 09:30:45

阅读数:43

评论数:0

【Tensorflow】Bi-LSTM文本分类

用于训练的计算图#训练图 train_graph = tf.Graph() with train_graph.as_default(): #输入文本维度为[time_step,batch_size,embedding_size] encoder_inputs = tf.placeh...

2018-06-07 10:50:01

阅读数:899

评论数:0

【论文笔记】Effective Approaches to Attention-based Neural Machine Translation

论文链接   本文针对NMT任务使用的attention机制提出两种结构,global attention将attention作用于全部输入序列,local attention每个时间步将attention作用于输入序列的不同子集。前者被称为soft attention,其原理和论文1一样,后者是...

2018-05-31 13:49:53

阅读数:225

评论数:1

【论文笔记】neural machine translation by jointly learning to align and translate

1.neural machine translation by jointly learning to align and translate   这篇文章是将attention机制应用于机器翻译上,普通的seq2seq模型要将输入文本的信息编码至固定长度的隐向量中,当面对长文本时会损失许多信息,...

2018-05-30 14:31:24

阅读数:372

评论数:1

【Tensorflow】文本自编码器

使用文本序列的word2vec词向量作为seq2seq模型的输入和输出,训练得到中间层的文本特征表示,可进一步进行分类任务等,encoder和decoder都使用LSTM。import tensorflow as tf import numpy as np import re from gensi...

2018-05-30 09:57:18

阅读数:338

评论数:0

【论文笔记】Bag of Tricks for Efficient Text Classification

    这篇文章写的是Facebook推出的FastText,能够快速在海量文本数据上进行分类任务和表示学习,可以用一个普通的多线程CPU在十分钟内训练百万级的语料,一分钟内将五十万文本分类到三十万个类别中。    最近几年深度学习在NLP任务上虽取得了显著地成就,但此类模型无论是训练还是测试阶段...

2018-05-25 10:22:33

阅读数:270

评论数:0

【论文笔记】GloVe: Global Vectors forWord Representation

摘要    词向量的成功捕捉到了细粒度的语义信息和语法规则,本文提出的方法融合了主流模型的优点:全局矩阵分解(LSA)和局部内容窗口(Word2vec),充分利用统计信息使用词共现矩阵中频率非零的元素来训练模型。引言    使用向量空间来表示自然语言可以做为许多NLP任务(文本分类,信息检索......

2018-05-22 21:06:38

阅读数:443

评论数:0

基于doc2vec的文本聚类

    使用gensim包中doc2vec工具预训练好的文档向量可以进行文本聚类,使用sklearn的KMeans工具载入预训练好的的文档向量设定簇数进行k-means聚类。from sklearn.cluster import KMeans from sklearn.externals impo...

2018-05-16 14:29:08

阅读数:659

评论数:2

使用gensim的doc2vec生成文档向量

doc2vec是word2vec的延伸,同样使用无监督方法利用上下文对词语和文档向量进行训练。doc2vec的输入是TaggedDocument向量,它包括word_list和tags两部分,word_list是文档的分词列表,如['火箭','是','总冠军',]。tags是文档的标签列表。比如可...

2018-05-09 16:15:52

阅读数:909

评论数:0

【论文笔记】文本分类(text classification)论文整理

Distributed Representations of Sentences and Documents这篇文章借鉴了word2vec的方法来训练长文本向量,如句子,段落,文档。首先随机初始化文本向量和文本中词的词向量,利用skip-gram和CBOW模型(在文中称为PV_DM和PV_DBOW...

2018-05-04 16:49:23

阅读数:513

评论数:0

【论文笔记】命名实体识别(NER)论文整理

Bidirectional LSTM-CRF Models for Sequence Tagging论文链接:https://arxiv.org/abs/1508.01991这篇文章比较了NLP几个经典任务:词性标注,命名实体识别上的模型,包括CRF,LSTM,Bi-LSTM,LSTM-CRF,B...

2018-05-03 10:23:27

阅读数:672

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭