假如自定义语料库(loli.txt)的完整文件路径如下:
Users/samarua/Documents/NLP自然语言处理/自定义语料/loli.txt
语料内容假设为:
loli loli loli
PlaintextCorpusReader 纯文本语料库阅读器
from nltk.corpus import PlaintextCorpusReader
corpus_root = r'/Users/samarua/Documents/NLP自然语言处理/自定义语料' # 文件根目录
corpue_file = r'loli.txt' # 文件名
file = PlaintextCorpusReader(corpus_root, corpue_file)
print('words --->', file.words())
print('raw ----->', file.raw())
BracketParseCorpusReader 括号解析语料库阅读器
from nltk.corpus import BracketParseCorpusReader
corpus_root = r'/Users/samarua/Documents/NLP自然语言处理/自定义语料' # 文件根目录
corpue_file = r'loli.txt' # 文件名
file = BracketParseCorpusReader(corpus_root, corpue_file)
print('words --->', file.words())
print('raw ----->', file.raw())
第一种 方法适合纯文本,第二种方法适合已经解析过的文本
显然推荐使用第一种 >_<