NLP
老笨妞
29岁开始纯软的老笨妞。
展开
-
NLP论文翻译——《Chinese Event Extraction With Inadequate Data》
这是一篇可能不出名,但是很实用的事件抽取论文,也很契合笨妞当下的使用。原文来自于这里,代码也比较好用。以下是翻译记录。********************************************分割线***********************************************一、概述事件抽取是文本挖掘的一种常见应用,它提取句子甚至是通道的主要特征。我们的实验主要集中在...翻译 2018-06-23 11:50:34 · 3523 阅读 · 4 评论 -
NLP论文笔记1:Neural Architectures for Named Entity Recognition
看这一篇论文的主要目的是看BILSTM-CRF模型,对于实际应用,CRF看分词、BILSTM-CRF做NER,接下来通过BILSTM-CNN-CRF做序列标注,NLP几个基本的应用也差不多了,句法分析貌似比较复杂,留作以后吧。********************开始论文吧****************一.叙述命名实体识别一直是更具挑战性的NLP应用,为什么更具挑战呢?原因有两方面,一方面,可用原创 2017-12-26 18:31:14 · 6823 阅读 · 4 评论 -
LSTM论文翻译-《Understanding LSTM Networks》
1. 循环神经网络(RNNs)人们并不是每一秒都重新开始新的思考的,就像你读这篇论文,你基于以前对词句的认知来理解每一个词,而不是丢掉以前所有的知识,重新开始构思新的想法。人们的思维是持续的。传统的神经网络是不会持续思考的,这是它的主要短板,例如,想象你要区分一部电影在每个时间段发生那种事件,传统的神经网络(以下称NN)怎样合理的将电影前面发生的事件传递给后面的事件呢?这是不明的。翻译 2016-07-25 09:22:41 · 23068 阅读 · 2 评论 -
gensim doc2vec + sklearn kmeans 做文本聚类
前一篇用doc2vec做文本相似度,模型可以找到输入句子最相似的句子,然而分析大量的语料时,不可能一句一句的输入,语料数据大致怎么分类也不能知晓。于是决定做文本聚类。选择kmeans作为聚类方法。前面doc2vec可以将每个段文本的向量计算出来,然后用kmeans就很好操作了。选择sklearn库中的KMeans类。程序如下:# coding:utf-8import sysi原创 2017-07-20 10:11:52 · 17091 阅读 · 7 评论 -
用gensim doc2vec计算文本相似度
最近开始接触gensim库,之前训练word2vec用Mikolov的c版本程序,看了很久才把程序看明白,在gensim库中,word2vec和doc2vec只需要几个接口就可以实现,实在是方便。python,我越来越爱你了。这个程序很简单,直接上程序了。# coding:utf-8import sysimport gensimimport sklearnimport numpy原创 2017-07-14 16:48:14 · 36790 阅读 · 20 评论 -
word2vec源代码解析
// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may not use this file except in compliance with the License.// You may obta原创 2016-07-21 13:03:05 · 1925 阅读 · 0 评论 -
word2vec之霍夫曼树的实现
word2vec huffman树原创 2016-08-04 10:34:02 · 4093 阅读 · 0 评论 -
Word2Vec程序解析
word2vec主要的层次结构vocab是一个结构体数组。*Vocab_hash是一个hash链表。vocab存入词的时候实际是按照先后顺序存储的。为了方便查找,在词存入的时候顺便把词在链表中的位置存入到vocab_hash中,而该词的vocab_hash位置有hash(word)决定,这样查找起来很快。 ReadWord:逐个字符读入词(一个汉字是不是拆成两个字符原创 2016-07-20 20:16:05 · 3458 阅读 · 0 评论 -
word2vec之TrainModelThread程序详细注解
void *TrainModelThread(void *id) { long long a, b, d, cw, word, last_word, sentence_length = 0, sentence_position = 0; long long word_count = 0, last_word_count = 0, sen[MAX_SENTENCE_LENGTH + 1];原创 2016-08-03 19:44:42 · 1788 阅读 · 0 评论 -
Word2vec神经网络详细分析——TrainModelThread分析
1. TrainModelTread的流程图总的来说是这样的:(1).所有训练集中的词被等分成n份(n为线程数),所有的词都会迭代5次(5次是默认值,这个可以在参数中设置),因此,每个线程会反复读5次自己管辖内的词。(2).每次按照句子来读入词,一次读入一句,一句读入后,逐个词进入神经网络训练。等这句话的所有词都训练完成后,再读入下一句。(3).当读到线程管辖文件原创 2016-08-03 19:37:42 · 4127 阅读 · 0 评论 -
【Deep Learning学习笔记】Efficient Estimation of Word Representations in Vector Space_google2013
转自http://blog.csdn.net/xceman1997/article/details/10047933标题:Efficient Estimation of Word Representations in Vector Space作者:Tomas Mikolov发表于:ICLR 2013主要内容:在NLP中,每一个词语都表示称实数转载 2016-07-20 09:55:07 · 636 阅读 · 0 评论