第一章获取语料库

最新推荐文章于 2024-06-29 22:11:22 发布

我爱玩泥巴

最新推荐文章于 2024-06-29 22:11:22 发布

阅读量2.2k

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011588619/article/details/79802667

版权

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.获取文本语料

通过import nltk.book 访问定义好的文本

通过nltk.corpus.gutenberg.fileids()访问古藤堡项目的文件

from nltk.corpus import gutenburg

emma=gutenburg.fileids()

print(emma)

emma=gutenburg.words('austen-emma.txt')#获取该文本的词汇

emma=gutenburg.raw()#获取原始文本

emma= gutenburg.sents()将句子转化成链表

Nltk中定义的基本语料库函数（nltk.corpus.reader）

fileids() 语料库中的文件
fileids([categories]) 这些分类对应的语料库中的文件
categories() 语料库中的分类
categories([fileids]) 这些文件对应的语料库中的分类
raw() 语料库的原始内容
raw(fileids=[f1,f2,f3]) 指定文件的原始内容
raw(categories=[c1,c2]) 指定分类的原始内容
words() 整个语料库中的词汇
words(fileids=[f1,f2,f3]) 指定文件中的词汇
words(categories=[c1,c2]) 指定分类中的词汇
sents() 指定分类中的句子
sents(fileids=[f1,f2,f3]) 指定文件中的句子
sents(categories=[c1,c2]) 指定分类中的句子
abspath(fileid) 指定文件在磁盘上的位置
encoding(fileid) 文件的编码（如果知道的话）
open(fileid) 打开指定语料库文件的文件流
root() 到本地安装的语料库根目录的路径

gutenberg(古腾堡)

webtext（网络和聊天文本）

reuters（路透社语料库）

inaugural（就职演说）

我爱玩泥巴

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我爱玩泥巴 CSDN认证博客专家 CSDN认证企业博客

码龄11年

34: 原创

14万+: 周排名

162万+: 总排名

11万+: 访问

: 等级

796: 积分

16: 粉丝

21: 获赞

5: 评论

100: 收藏

私信

关注

热门文章

分类专栏

最新评论

模型搭建与评估
YELLOES: 你说你给个数据集不行啊
Pandas 第8章分类数据
ctotalk: thanks,欢迎关注一起交流
Python解决unicode编码 \xe7\xbb\x87转化为中文
火目小码农: [code=python] a = bytes([0xe4,0xb8,0xad,0xe6,0x96,0x87]) print(a.decode('utf-8')) # 输出： # 中文 [/code]
Python解决unicode编码 \xe7\xbb\x87转化为中文
火目小码农: [code=python] a = bytes("中文", 'utf-8') print(a) print(a.decode('utf-8')) # b'\xe4\xb8\xad\xe6\x96\x87' # 中文 [/code]
Python解决unicode编码 \xe7\xbb\x87转化为中文
mumumuyanyanyan: 为啥我直接复制粘贴，得到的结果是错的 exec(code_obj, self.user_global_ns, self.user_ns) File "<ipython>", line 4, in <module> sss = ss.decode() UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe5 in position 31: invalid continuation byte b'\xe7\xbb\x87\xe7\x89\xa9 \xe7\xbb\x93\xe5\x90\x88\xe9\x83\xa8 \xe7\xbb\x93\xe6\x9e\x84 \xe5\x86\x85\xe7\xae\xa1 \xe5 \xa0 \xa0 \x88\x86\xe9\x9a\x94 \xe8\x86\xa8\xe8\x83\x80 \xe8\xa3\x85\xe7\xbd\xae \xe4\xb8\xbb\xe4\xbd\x93 \xe6\xa8\xaa\xe5\x90\x91 \xe6\xb0\x94\xe5\x9b\x8a'

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。