探索的问题
1.什么是一些有用的文本语料库和词汇资源,我们如何通过Python访问他们?
2.哪种Python构造对这项工作(NLP)最有用
3.在编写Python代码时如何避免重复?
本章将继续通过在语言处理任务的上下文中的例子介绍编程概念,我们将等到稍后再系统地研究每个Python构造。如果您看到一个不熟悉的示例,请不要担心;简单地尝试一下,看看它能做什么,如果你有兴趣的话,通过用不同的文本或单词替换代码的某些部分来修改它。通过这种方式,您将把任务与编程习惯联系起来,并在稍后学习如何做和为什么这么做。
2.1 Accessing Text Corpora 访问文本语料库
Gutenberg Corpus
import nltk
nltk.corpus.gutenberg.fileids()
emma = nltk.corpus.gutenberg.words(‘austen-emma.txt’)
emma = nltk.Text(nltk.corpus.gutenberg.words(‘austen-emma.txt’))————nltk.Text()转化为text
import nltk
nltk.corpus.gutenberg.fileids()和
from nltk.corpus import gutenberg
gutenberg.fileids() 一样
gutenberg.fileids()
gutenberg.raw() #raw()统计字母数包含空格
gutenberg.words() #
gutenberg.sents() #把text分成句子,每个句子包含很多words列表