NLTK
csdn_lzw
这个人很菜什么也没写
展开
-
NLTK(FreqDist)
本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 1.3节 P17FreqDist继承自dict,所以我们可以像操作字典一样操作FreqDist对象。 在本例中,FreqDist中的键为单词,值为单词的出现总次数。 实际上FreqDist构造函数接受任意一个列表,它会将列表中的重复项给统计起来, 在本例中我们传入的其实就是一个文本的单词列表。我们可以看看每个单词对...原创 2018-05-21 13:13:15 · 14197 阅读 · 0 评论 -
NLTK(text)
本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。import nltkform nltk.book import *text1Out[64]: <Text: Moby Dick by Herman Melville 1851>text2Out[65]: <Text: Sense and Sensibility by Jane Austen ...原创 2018-05-21 13:32:55 · 938 阅读 · 0 评论 -
NLTK(语料库)
本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41一、古腾堡语料库古腾堡语料库主要包含一些文学书籍。 先看一个例子,查看古腾堡语料库包含的文本名称:import nltknltk.corpus.gutenberg.fileids()Out[82]: [u'austen-emma.txt', u'austen-persuasion.txt',...原创 2018-05-21 22:13:35 · 4715 阅读 · 0 评论 -
NLTK(条件频率分布)
本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.2节 P55前面的博客中我们学习了一些语料库,我们知道布朗语料库是一个按照文体分类的语料库。我们还学习频率分布对象FreqDist。我们指定单词列表变量mylist,FreqDist(mylist)会计算列表中每个项目出现的次数。本章我们将学习条件频率分布对象(ConditionalFreqDist),条件频率分布是频...原创 2018-05-22 10:32:05 · 2836 阅读 · 0 评论 -
NLTK(词典资源)
本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.4 节 P63一、词汇列表语料库nltk.corpus.words 仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇import nltkdef unusual_words(text): text_vocab = set([w.lower() for w in text i...原创 2018-05-22 16:22:51 · 3963 阅读 · 0 评论 -
NLTK(处理原始文本)
from urllib import urlopenurl=&amp;amp;quot;http://www.gutenberg.org/files/2554/2554-0.txt&amp;amp;quot;raw = urlopen(url).read()raw[:75]Out[187]: '\xef\xbb\xbfThe Project Gutenberg EBook of Crime and Punishment, by Fyo...原创 2018-05-23 15:37:53 · 1256 阅读 · 0 评论 -
NLTK(标注词汇)
1.使用词性标注器nltk.word_tokenize(text):对指定的句子进行分词,返回单词列表。nltk.pos_tag(words):对指定的单词列表进行词性标记,返回标记列表。import nltkwords = nltk.word_tokenize('And now for something completely different')print(words)wo...原创 2018-05-28 14:47:42 · 1246 阅读 · 0 评论