《使用Python进行自然语言处理》学习笔记三

本文介绍了使用Python的nltk库获取和处理文本语料库的方法,包括古腾堡语料库、布朗语料库、路透社语料库、就职演说语料库和标注文本语料库。还提到了在Windows环境下遇到的问题和自定义语料库的载入方式。
摘要由CSDN通过智能技术生成

第二章 获得文本语料和词汇资源

2.1 获取文本语料库

1 古腾堡语料库

Project Gutenberg的语料库包含

>>>import nltk

>>>from nltk.corpus import gutenberg

>>>gutenberg.fileids()

['austen-emma.txt','austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt','blake-poems.txt','bryant-stories.txt', 'burgess-busterbrown.txt','carroll-alice.txt','chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt','edgeworth-parents.txt', 'melville-moby_dick.txt','milton-paradise.txt','shakespeare-caesar.txt', 'shakespeare-hamlet.txt',

'shakespeare-macbeth.txt','whitman-leaves.txt’]

调用使用:

>>>emma = nltk.corpus.gutenberg.words('austen-emma.txt')

#num_chars 变量计数了空白字符

#row()对文件的内容不进行任何语言处理

#sents()函数把文本划分成句子,其中每一个句子是一个词链表

非正规文本语料库

>>> from nltk.corpus import webtext

>>> for fileid in webtext.fileids():

即时消息聊天会话语料库

>>> from nltk.corpus import nps_chat

>>> chatroom =nps_chat.posts('10-19-20s_706posts.xml')

>>> chatroom[12

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值