NLP
文章平均质量分 63
imperfect00
如果有梦想不去坚持实现,就是空想。
展开
-
基于压缩感知机的中文分词学习笔记
基于压缩感知机的中文分词的python代码学习笔记原创 2017-01-08 13:48:02 · 1616 阅读 · 0 评论 -
aiml语言获取时间,日期
关于aiml的python调用方法,参考:本文主要介绍如何设计.aiml文件,输出时间,日期.aiml内部有定以时间函数date,可以通过date获得函数data的输出,通常我们还会为其定义一个pattern, TIME date 这样我们可以设计自己的pattern,而pattern的template为TIME的tempalte.贴出.ai原创 2017-08-06 16:46:59 · 500 阅读 · 0 评论 -
sentencePiece 分词原理学习
sentencePiece分词原理学习原创 2017-08-14 19:30:57 · 9514 阅读 · 0 评论 -
sentencepiece分词效果测试
sentencePiece 分词效果测试原创 2017-08-14 19:35:20 · 4782 阅读 · 0 评论 -
Deal or No Deal? End-to-End Learning for Negotiation Dialogues学习笔记
Deal or No Deal? End-to-End Learning for Negotiation Dialogues学习笔记原创 2017-08-14 19:37:36 · 925 阅读 · 0 评论 -
ubuntu下使用pycharm调用Hanlp自然语言处理包
首先点击File,选择Settings,在Project 下点击Project Interpreter,并通过点击右边的加号:搜索JPype,根据python版本选择你需要的JPype版本安装。之后,在https://github.com/hankcs/HanLP/releases网站下载hanlp.jar包、模型data包、配置文件hanlp.properties,新建一个文原创 2017-08-14 19:44:04 · 3751 阅读 · 0 评论 -
opennmt聊天模型训练
1)数据处理:th preprocess.lua -train_src data/src-train.txt -train_tgt data/tgt-train.txt -valid_src data/src-val.txt -valid_tgt data/tgt-val.txt -save_data data/demo训练数据:src-train.txt为输入语句,tgt-train原创 2017-08-14 19:58:51 · 3083 阅读 · 0 评论 -
kcws分词模型
lstm+crf tensorflow分词原理学习原创 2017-08-14 20:07:47 · 1514 阅读 · 0 评论 -
parlai环境搭建以及模型训练
parlai环境搭建以及模型训练原创 2017-08-14 20:18:58 · 3032 阅读 · 0 评论 -
忽略‘50unattended-upgrades.ucf-dist’(于目录‘/etc/apt/apt.conf.d/’),鉴于它的文件扩展名无效
ubuntu 安装opencv的时候,终端运行命令: sudo apt-get install python-dev python-numpy libtbb2 libtbb-dev libjpeg-dev libpng-dev libtiff-dev libjasper-dev libdc1394-22-dev出现错误:错误:1 http://cn.archive.ubuntu.com原创 2017-07-25 11:19:49 · 5663 阅读 · 0 评论 -
caffe 学习笔记-模型训练与测试
以LeNet 手写字体识别为例,首先进入caffe安装目录,并下载手写字体训练数据:cd $CAFFE_ROOTsudo ./data/mnist/get_mnist.sh将图片转换成lmdb文件:sudo ./examples/mnist/create_mnist.sh运行后得到 mnist_train_lmdb和mnist_test_lmdb./examples/mnist/lenet_so原创 2017-08-15 18:02:40 · 557 阅读 · 0 评论 -
dual learning for machine translation
对于翻译系统,如语言A翻译到语言B,通常需要大量的语言对来训练神经机器翻译,而数据量的增大会大大的增加成本。本文通过构建两个神经翻译网络,θAB和θBA,这两个网络分别用于将语言A翻译到语言B和语言B翻译到语言A。文章先采用少量的语言对训练好这两个模型。之后,采用无监督学习,训练这两个模型,具体为将语言A输入网络θAB,同时将θAB的输出输入到网络θBA中,再采用强化学习的思想,对网络θAB和网络的原创 2017-09-10 10:43:18 · 530 阅读 · 0 评论 -
SRU
SRU算法在文献Training RNNs as Fast as CNNs中提出.目的是针对RNN中当前step t的输出hth_t依赖于前一时刻ht−1h_{t-1}的输出,而导致无法进行并行计算,计算速度过慢.SRU通过有对LSTM循环单元进行简单化计算,使得计算过程可以并行,具体SRU计算公式如下:对于输入xtx_t,公式3,4,5可以并行计算.计算x˜t、ft和rt x^˜_t、f_t 和原创 2017-09-12 20:48:05 · 5440 阅读 · 0 评论 -
python调用斯坦福中文分词器
首先安装安装Java运行环境:sudo apt-get install default-jresudo apt-get install default-jdk之后需要安装最新的版本的nltk,新版的已经提供了相应的斯坦福文本处理工具接口,包括词性标注,命名实体识别和句法分析器的接口:git clone https://github.com/nltk/nltkcd nltksudo pyt原创 2017-06-28 17:29:34 · 4398 阅读 · 0 评论 -
aiml语言python对话系统构建
AIML是一种为了匹配模式和确定响应而进行规则定义的 XML 格式。python安装:pip install aiml原创 2017-07-16 17:28:40 · 1765 阅读 · 0 评论 -
清华大学thulac分词和词性标注代码理解
清华大学的thulac中分分词词法包,包含有中文分词和词性标注,从测试精度和速度看,效果还不错,github上有提供c++和python代码,c++代码包含有训练和测试代码,python代码只有测试代码,速度也较慢,github地址为:https://github.com/thunlp/THULAC。 根据github上提出的参考文献,完全无法看懂代码和文章有什么关系,代码也比较难以理原创 2017-01-15 15:46:53 · 9242 阅读 · 0 评论 -
snownlp文本情感分析使用
snownlp为python版的文本分析工具,ubuntu安装snownlp命令为:pip install snownlp。利用snownlp可以进行分词、词性标注、文本摘要提取、文本情感分析等,下面贴出snownlp分词、词性标注、情感分析代码如下:from snownlp import SnowNLPs = SnowNLP(u'这个东西真心很赞')key=s.words # [原创 2017-01-16 13:57:24 · 28841 阅读 · 0 评论 -
LightLDA主题模型训练语测试
1. 下载与编译:git clonehttps://github.com/Microsoft/LightLDA1) 下载multiverso:git clonehttps://github.com/Microsoft/multiverso/tree/9ed99cd2d3080a8683d1c511de5927e2b72744382) 编译安装依赖库:sh build.sh原创 2017-04-28 11:01:44 · 4762 阅读 · 0 评论 -
java学习笔记
1.读取文件的每行public static void readLines(String file, ArrayList lines) { BufferedReader reader = null; try { reader = new BufferedReader(new FileReader(new File(file))); String line = null原创 2017-04-18 15:54:01 · 616 阅读 · 0 评论 -
word2vec大规模语料及模型初始化
word2vec训练目前只支持cpu,当我们训练大规模语料时,如果直接将所有的语料加载到内存,势必导致内存不足,一种解决方法是,训练时,从本地读取训练语料,这里提供一种本地读取文本函数如下:def sentence2words(sentence, stopWords=False, stopWords_set=None): words = [] for word in se原创 2017-07-16 17:08:58 · 3458 阅读 · 0 评论 -
tensor2tensor
tensor2tensor to train all the need is attention model原创 2017-08-12 11:47:11 · 3347 阅读 · 0 评论 -
fnlp
分词效果测试:fnlp-demo/src/main/java/org.fnlp.demo.nlp/ChineseWordSegmentation.javamsr: pku: cityu:词性标注测试:fnlp-demo/src/main/java/org.fnlp.demo.nlp/PartsOfSpeechTag.java发现出现明显词性标注错误,如部分标点符号错标为名词,动词,例如:词 长/原创 2017-08-20 18:15:34 · 445 阅读 · 0 评论 -
Topic Aware Neural Response Generation
tase2seq模型整体模型结果图如下: 图2给出了topic avare seq2seq模型,该模型在seq2seq的基础上,通过一个联合attenton机制和一个偏置生成概率引入topic 信息.topic word的获取采用twitter lda模型,每个输入语句x,对应一个topic z,对于topic z,语句x中语该topic有关的字有n个,取n=100,表示为K...原创 2017-08-20 18:40:08 · 2991 阅读 · 0 评论 -
Dialog System Using Real-Time Crowdsourcing and Twitter Large-Scale Corpus
聊天系统结构如下: (1)从web爬取料聊天语料,制作聊天对话,即Utterance Pair Corpus.(2)用户输入聊天语句,即user input,将user input与(1)中的聊天语句匹配,当匹配置信度大于某一阈值时,得到最佳的匹配作为回答,即response.计算与输入最相似的句子作为回答,首先计算每个句子d的词wi的向量表示:xi=tfi/nix_i=tf_i/n_itfitf原创 2017-08-20 19:05:31 · 175 阅读 · 0 评论 -
QRNN(Quasi-Recurrent Neural Networks)
keras代码:https://github.com/DingKe/qrnn模型结构如下: qrnn第一层为卷积层,用于提取输入特征,第二层为pooling层,用于减少特征数目,但语常用的pooling层不同的是,qrnn采用fo-pool方法,具体计算如下.卷积层:对于输入X,分别通过三个卷积层和非线性层得到Z,F,O,公式如下:Z=tanh(Wz∗X)Z=tanh(W_z*X)F=σ(Wf∗X原创 2017-08-20 19:29:19 · 8631 阅读 · 0 评论 -
Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations
对于句子s,将其分词为n个词wi,每个词wi对应取wi的词性为ti,取向量e(wi),和词性向量e(ti),将词向量和词性向量串联得到新的向量xi=concat(e(wi),e(ti))。BILSTM 向量vi=BILSTM(x_1:n,i)=concat(RNN_F(x_1:i),RNN_R(x_n:i))将一小部分的BILSTM 向量vi串联,从而得到特征向量F,实际的特征向量F依赖于原创 2017-01-08 14:08:09 · 1371 阅读 · 2 评论 -
BUPTTeam Participation in NTCIR-12 Short Text Conversation Task
系统架构为:1.1预处理首先对多有的对话对进行文本处理,如繁体转换为简体,过滤特殊字符,英文字符,数字处理等,并对处理好的文本进行分词处理.1.2建立索引使用Elasticsearch方法1.3生成候选query由Elasticsearch方法得到top10个候选的query,再有得到的query通过Elasticsearch算法得到对应的10个response,Elasticsearch算法:对于原创 2017-08-20 20:28:43 · 322 阅读 · 0 评论 -
image caption学习笔记
show and tellcnn-lstm结构,cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后,将其输入一个线性层(CNN),得到x−1x_{-1}x−1作为第一个lstm的输入,对于输入句子的每个字sts_{t}st,将其与权重参数wew_ewe相乘,输出作为lstm的输入,模型结构如下,inference有两种方法得到输出,一种是直接去概率最大...原创 2018-11-01 18:15:32 · 1210 阅读 · 0 评论