小编典典
如果你的目录如下所示:
newcorpus/
file1.txt
file2.txt
...
只需使用以下代码行,你就可以得到一个语料库:
import os
from nltk.corpus.reader.plaintext import PlaintextCorpusReader
corpusdir = 'newcorpus/' # Directory of corpus.
newcorpus = PlaintextCorpusReader(corpusdir, '.*')
注意:该PlaintextCorpusReader将会使用默认设置,nltk.tokenize.sent_tokenize()并将nltk.tokenize.word_tokenize()你的文本分为句子和单词,并且这些功能是针对英语构建的,可能不适用于所有语言。
这是创建测试文本文件的完整代码,以及如何使用NLTK创建语料库以及如何在不同级别访问语料库:
import os
from nltk.corpus.reader.plaintext import PlaintextCorpusReader
# Let's create a corpus with 2 texts in different textfile.
txt1 = """This is a foo bar sentence.\nAnd this is the first txtfile in the corpus."""
txt2 = """Are you a foo bar? Yes I am. Possibly, everyone is.\n"""<