Python NLP自然语言处理 nltk载入自己语料库的方法以及文本分词处理

最新推荐文章于 2024-08-11 22:53:16 发布

还是瓜瓜好

最新推荐文章于 2024-08-11 22:53:16 发布

阅读量4.2k

点赞数 1

分类专栏： Python 文章标签： nltk NLP

本文链接：https://blog.csdn.net/tingguan/article/details/102504982

版权

Python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一、使用NLTK中的PlaintextCorpusReader 帮助下载入它们

PlaintextCorpusReader 初始化函数的第一个参数是你要加载的文件的路径，第二个参数可以是一个如['a.txt', 'test/b.txt']这样的 fileids链表，或者一个匹配所有fileids的模式，如：'[abc]\.txt'

假定你的文件在/usr/share/dict 目录下，匹配该路径下的'[abc]\.txt'文件

from nltk.corpus import PlaintextCorpusReader
corpus_root = '/usr/share/dict'#目标文件路径
wordlists = PlaintextCorpusReader(corpus_root, r'[abc]\.txt')#匹配加载想要的txt文件
wordlists.fileids()

二、 BracketParseCorpusReader 更适合已解析过的语料库

from nltk.corpus import BracketParseCorpusReader
corpus_root =r"F:\nltk_data\corpora\SogouC.reduced.20061127\SogouC.reduced\Reduced"  # r"" 防止转义
file_pattern = r".*/.*\.txt"    #匹配corpus_root目录下的所有子目录下的txt文件
ptb = BracketParseCorpusReader(corpus_root, file_pattern)   #初始化读取器：语料库目录和要加载文件的格式，默认utf8格式的编码
ptb.fileids()   #至此，可以看到目录下的所有文件名，例如C000008/1001.txt，则成功了
ptb.raw(“C000008/1001.txt”) # 如果C000008/1001.txt编码格式和ptb格式一致，则看到内容

把文本加载完了，你就可以查看文本的内容了，只有这样你才能接下来进行文本分词处理，这样比直接去读取文件内容来的更加方便，而且你也可以使用nltk里面带有的方法，这样效率更高，速度更快

参考原文链接：https://blog.csdn.net/shanyuelanhua/article/details/51212194