NLTK载入自己的语料库

最新推荐文章于 2024-06-10 01:36:17 发布

samarua

最新推荐文章于 2024-06-10 01:36:17 发布

阅读量1.8k

点赞数 3

分类专栏： # NLP 自然语言处理文章标签：自然语言处理 nlp 语料库

本文链接：https://blog.csdn.net/m0_46202073/article/details/109147684

版权

NLP 同时被 2 个专栏收录

12 篇文章 5 订阅

订阅专栏

自然语言处理

12 篇文章 4 订阅

订阅专栏

假如自定义语料库(loli.txt)的完整文件路径如下：

Users/samarua/Documents/NLP自然语言处理/自定义语料/loli.txt

语料内容假设为：

loli loli loli

PlaintextCorpusReader 纯文本语料库阅读器

from nltk.corpus import PlaintextCorpusReader	

corpus_root = r'/Users/samarua/Documents/NLP自然语言处理/自定义语料'	# 文件根目录
corpue_file = r'loli.txt'											# 文件名
file = PlaintextCorpusReader(corpus_root, corpue_file)

print('words --->', file.words())
print('raw ----->', file.raw())

在这里插入图片描述

BracketParseCorpusReader 括号解析语料库阅读器

from nltk.corpus import BracketParseCorpusReader

corpus_root = r'/Users/samarua/Documents/NLP自然语言处理/自定义语料'	# 文件根目录
corpue_file = r'loli.txt'											# 文件名
file = BracketParseCorpusReader(corpus_root, corpue_file)

print('words --->', file.words())
print('raw ----->', file.raw())

在这里插入图片描述

第一种方法适合纯文本，第二种方法适合已经解析过的文本

显然推荐使用第一种 >_<

samarua

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
NLTK载入自己的语料库

 加入自定义语料库(loli.txt)的完整文件路径如下：Users/samarua/Documents/NLP自然语言处理/自定义语料/loli.txt语料内容假设为：loli loli loli PlaintextCorpusReader 纯文本语料库阅读器from nltk.corpus import PlaintextCorpusReader corpus_root = r'/Users/samarua/Documents/NLP自然语言处理/自定义语料'
复制链接

扫一扫

专栏目录