NLP
u010157717
这个作者很懒,什么都没留下…
展开
-
《NLP with LingPipe》2.4 CrossValidation
交叉验证将语料库分成大致相等的几部分,称为fold。将其中的一份作为测试数据,其余部分作为训练数据。典型的fold数量为10,也就是90%的数据为训练数据,10%为测试数据。fold数量在构造函数中设置。默认取第0份fold为测试数据,可以通过setFold来修改。package chapter2;import java.util.Set;import java.util.原创 2013-04-07 10:04:49 · 510 阅读 · 0 评论 -
Python NLP相关工具
NLTKNLP POS Tagging与NERNLP Stemming与Lemmatization的区别nltk.tokenize.word_tokenize(s)Numpynp.zeros((D, N))np.random.shuffle(data)pandasdata = pd.read_csv('spambase.data').as_matri原创 2016-06-15 05:25:20 · 599 阅读 · 0 评论 -
NLP POS Tagging与NER
POS Taggingimport nltks = "Steve Jobs was the CEO of Apple Corp."tags = nltk.pos_tag(s.split())tags[('Steve', 'NNP'), ('Jobs', 'NNP'), ('was', 'VBD'), ('the', 'DT'), ('CEO', 'NNP'), ('of', 'IN'原创 2016-06-11 15:07:37 · 4733 阅读 · 0 评论 -
NLP Stemming与Lemmatization的区别
Stemming:基于规则from nltk.stem.porter import PorterStemmerporter_stemmer = PorterStemmer()porter_stemmer.stem('wolves')结果里es被去掉了u'wolv'Lemmatization:基于字典from nltk.stem import WordNetLemmatize原创 2016-06-11 14:45:51 · 6410 阅读 · 0 评论 -
Install tensorflow/SyntaxNet on Ubuntu VM
1 install Ubuntu 14.04 by virtualbox1.1 install virtualboxhttps://www.virtualbox.org/wiki/Downloads1.2 downlaod Ubuntu 14.04 Wily vitualbox vdihttp://www.osboxes.org/ubuntu/#ubuntu-1原创 2016-06-25 02:26:26 · 1527 阅读 · 0 评论 -
NLP相关
暂时先列一下 以后总结词相似度gloVeword2vec原创 2016-05-24 07:14:59 · 266 阅读 · 0 评论 -
NLP常用工具
各种工具包的有效利用可以使研究者事半功倍。以下是NLP版版友们提供整理的NLP研究工具包。同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。*NLP Toolbox CLT http://complingone.georgetown.edu/~linguist/compling.html GATE http://gate.ac.uk/ Natural转载 2014-06-13 08:00:39 · 764 阅读 · 0 评论 -
NLP tagger
Hidden Markov model:other are Maximum Entropy Markov Modelsor Conditional Random Fields.原创 2014-06-10 14:33:57 · 597 阅读 · 0 评论 -
canterbury corpus
《Text Analysis with LingPipe 4》书中第6章6.9节Learning Curve Evaluation中用到了canterbury corpus.可以从这里下载 http://corpus.canterbury.ac.nz/resources/cantrbry.zip原创 2013-04-22 07:48:45 · 514 阅读 · 0 评论 -
Process Language Model
Language Model分为两种,Process Language Model跟Sequence Language Model。Sequence Language Model:所有长度的字符串所有的可能性,概率和为1.Process Language Model:对于任何一种长度的字符串所有的可能性,概率和为1.这里,有个基于LingPipe的NGramProcessLM例程,演示原创 2013-04-21 07:34:27 · 840 阅读 · 0 评论 -
Language Model与Naive Bayes Text Classification
对于Naive Bayes Text Classification而言一个category就是一个language model如果每个category训练集数量相同的话Text Classification问题就变成#1 给定训练集每个category训练成一个language model#2 给定一个text,概率最大的那个language model就是概率最大的cat原创 2013-04-12 11:10:45 · 701 阅读 · 0 评论 -
Features for OpenNLP POS Tagging
Paper MAXIMUM ENTROPY MODELS FOR NATURAL LANGUAGE AMBIGUITY RESOLUTION Page 39OpenNLP source codeFeatures:ti-1 = X //previous tagti-2ti-1 = XY //previous and preprevious tagswi = X原创 2016-06-21 06:31:36 · 476 阅读 · 0 评论