![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 58
sunfoot001
这个作者很懒,什么都没留下…
展开
-
中文语料库
1. 语料库的类别:语料库可分为生语料库和标注语料库。标注语料库,如分词库,分词与词性标注库,树库,命题库,篇章树库。中文分词库的目的是训练和测试汉语的自动分词系统,其他库的目的类似。树库以句法结构信息为主要标注内容。命题库以谓词-论元结构信息为主要标注内容。篇章树库以篇章结构信息为主要内容。也有语料库可用于文本分类,主题检测(如搜狗文本分类语料库)。原创 2016-02-19 21:16:55 · 6602 阅读 · 0 评论 -
词形变换和词干提取工具(英文)
转载自: http://www.cnblogs.com/kaituorensheng/p/3437807.html词形变换和词干提取工具(英文)在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率。例如:词根run有不同的形式running、ran另外runner也和run有关。这里涉及到两个概念:词形变化:把一个转载 2016-11-19 21:28:45 · 3595 阅读 · 0 评论 -
CRFsuite 学习: CoNLL 2000 shared task
从 http://www.cnts.ua.ac.be/conll2000/chunking/下载了CoNLL 2000 shared task的训练和测试语料。从http://www.chokkan.org/software/crfsuite/下载了Win32 binary文件,无需编译,直接使用。根据http://www.chokkan.org/software/crfsuite/t原创 2017-01-17 20:12:38 · 3125 阅读 · 1 评论 -
Tomas Mikolov's Recurrent Neural Networks Language Modeling Toolkit
基于RNN的LM在性能上优于传统的N-gram LM,在实际使用时RNN_LM还可以与N-gram LM联合使用,进一步提高性能。 1. 从点击打开链接下载c++代码。2. 修改makefile 中对应内容为: CC = g++3. 替换rnnlmlib.cpp中的 函数exp10为pow(x,y)。4.在cygwin 下运行代码自带的example.sh,进行训练得到模型文件mo原创 2017-07-01 15:55:53 · 459 阅读 · 0 评论 -
关于RNNLM的思考,特别是与HMM,n-gram的区别
来自Quora.1. RNN do not make the Markov assumption and so can, in theory, take into account long-term dependencies when modeling natural language.但训练RNN也会面临gradient vanish问题,怎么解决,用LSTM吗?2.转载 2017-07-01 18:16:44 · 3138 阅读 · 0 评论 -
Keras学习---RNN模型建立篇
本例子是“IMDB sentiment classification task”,用单层LSTM实现。 1. 输入数据预处理因为RNN的隐层节点数是固定的,因此要求输入层节点数也是固定的。x_train = sequence.pad_sequences(x_train, maxlen=maxlen)有没有动态的呢?因为输入的句子长度本身是动态长度的。2. 关于E原创 2017-07-14 22:32:39 · 4536 阅读 · 0 评论 -
开源bot工具Rasa学习---1
Rasa是一个不错的开源bot工具,全部基于python实现,主页是https://rasa-nlu.readthedocs.io/en/latest/index.html本节是关于工具安装和初步运行的记录。根据其文档进行安装,我选择的安装方式是:git clone git@github.com:RasaHQ/rasa_nlu.gitcd rasa_nlupip ins原创 2017-07-09 15:57:02 · 8378 阅读 · 1 评论 -
Python 3.4中文编码
ANSI不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代原创 2016-02-22 21:45:33 · 1990 阅读 · 0 评论 -
《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining
这是一本关于文本挖掘的很厚的英文电子书,看英文大部头,很容易边看边忘记。1.An Introduction to Text Mining1.1 介绍文本挖掘的三个问题:a. 主要的算法模型是什么?与其他数据挖掘的区别?b. 有哪些可用的工具和技术?(模型是形而上的,技术是形而下的)c. 有哪些关键的应用领域?文本挖掘的特点:a. 文本数据的高维度和稀疏性原创 2017-08-17 21:57:01 · 1013 阅读 · 0 评论 -
初识本体
初学者看到"本体"这个东东,都感觉云里雾里. 通过下图可以了解本体长什么样,有点像思维导图.其实,学过C++的朋友应该会感觉很熟悉,构成本体的主要元素有:individuals (instances), classes (concepts), attributes, and relations.另外几个概念容易和本体弄混淆. 知识库是由本体构成的, 知识图谱是Google的知识库的原创 2016-09-23 22:01:48 · 478 阅读 · 0 评论 -
CRF++学习
CRF有几个开源实现:pocketcrf, flexcrf 和crf++,目前感觉crf++在易用性,稳定性和准确性等综合方面的表现最好。CRF++到主页是“CRF++: Yet Another CRF toolkit”。我下载了 CRF++-0.54 source code, 根据主页到指示, 在Ubuntu下build 和 install.关于如何训练和测试CRF++,主页里有详细原创 2016-09-22 21:29:35 · 512 阅读 · 0 评论 -
怎么"多快好省"地学习中文自然语言处理
作为自然语言处理的初学者,感觉自然语言处理博大精深,处处是宝贝,处处想学习,但无奈可用时间太少.所以,有必要给自己确定一些策略和原则,限定一些范围,避免迷失在知识的森林里.1. 边学边练的原则使用python, 很方便的边学边练NLP. NLTK工具及其教程>应该熟悉.2.牢记中文NLP是目标绝大多数的NLP开源工具是针对英文的,所以,学习和练习时都要考虑中文时该怎么处理.原创 2016-09-06 21:51:56 · 1457 阅读 · 0 评论 -
使用Stanford NLP software进行中文文本预处理
中文文本预处理的几个主要步骤有: 中文分词,词性标注,生成词向量,生成中文依存语法树。Stanford NLP software是Stanford NLP小组提供的一个NLP处理工具集合,部分工具支持中文的处理。该工具包是基于JAVA开发的。1. 中文分词:我下载的是stanford-segmenter-2015-12-09分词包。解压缩后,直接运行内置到例子,如下原创 2016-02-24 20:18:44 · 7148 阅读 · 0 评论 -
英语NLP词汇类别列表
CC 并列连词RB 副词IN 介词NN 名词JJ 形容词ADJ 形容词VBP 一般现在时动词PRP 代词TO 介词或动词不定式标记VB 动词DT 限定词原创 2016-02-26 21:54:44 · 2330 阅读 · 0 评论 -
常用的开源中文分词工具
转载自: http://www.scholat.com/vpost.html?pid=4477常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的(训练CRF模型是非常耗时的),但是精度高,涉及CRF的分词工具有CRF++,Stanford分词转载 2016-05-28 10:32:24 · 18645 阅读 · 2 评论 -
盘古分词工具学习笔记
下载了盘古分词工具,学习工具使用的同时学习中文分词基础。1. 一元分词/二元分词/多元分词/精确分词 一元分词是按字拆分的,比如一句话“梦想很丰满”,在盘古分词中使用一元分词拆分的结果是:梦/梦想/想/很/美/美满/满/。 二元分词按双字形式输出。比如一句话“梦想很丰满”,使用二元分词拆分的结果是:“梦想”,“想很”,“很丰”,“丰满“。原创 2016-05-28 18:08:18 · 2832 阅读 · 0 评论 -
Max Time-Delay Neural Networks
转载自:http://blog.csdn.net/wangxinginnlp/article/details/44977067Time-Delay Neural Networks的解释见:http://en.wikipedia.org/wiki/Time_delay_neural_network在参考文献中的两篇文章都使用以上述TDNN为基础Max-TDNN转载 2016-05-16 20:25:36 · 473 阅读 · 0 评论 -
Matrix67:漫话中文分词算法
这篇文字不错,列举了很多有意思的中文分词困难例子,特别是对未登词部分。Matrix67:漫话中文分词算法发表于 2011年03月10号 由 52nlp注:这是今天在Matrix67上看到的关于中文分词的文章,粗略的读了一遍,觉得Matrix67能把中文分词的一些关键问题如此“漫话”开来,不愧是北大中文系的牛人!以下文章转自于Matrix67的“漫转载 2016-05-29 17:53:29 · 678 阅读 · 0 评论 -
OpenNLP学习笔记1
我是在学习OpenEphyra这个开源对话系统时,遇到了OpenNLP的运行错误,才开始学习OpenNLP的.学习怎么使用OpenNLP最简单的方法是命令行下调用,以下测试是在win7下进行的.1. 从官网上下载了apache-opennlp-1.6.0-bin包,从其他网上下载了英语分词的模型文件en-token.bin,放到bin文件夹下.一个简单的命令行下的英语分词示例如原创 2016-09-03 21:01:03 · 2412 阅读 · 0 评论 -
OpenEphyra学习笔记1
1. 引用的OpenNLP版本是1.3.0,编成jar时候需要把源代码也加入,这样方便后续的debug.2. debug现在在以下代码段引起异常,原因不清楚super((new SuffixSensitiveGISModelReader(new File(name))).getModel());res\nlp\tokenizer\opennlp\EnglishTok.bin原创 2016-09-04 16:44:31 · 1815 阅读 · 1 评论 -
IBM Bluemix 自然语言处理初识
今天注册了IBM Bluemix的30天免费账号,大概了解了下其提供的自然语言处理功能。这些自然语言处理还是浅层的处理,包括了识别概念、实体、关键字、类别, 观点、情绪、关系、语义角色,并不包含推理等深层处理。一个典型的自然语言处理pipline包括: 意图识别,实体识别,语气识别,上下文分析和知识扩展。基于Bluemix在云端实现一个领域内的chatbot不再是难事。Bl原创 2017-09-06 22:02:48 · 516 阅读 · 0 评论