第二章-获取文本语料和词汇资源(Natural Language Processing with Python第二版)

探索的问题

1.什么是一些有用的文本语料库和词汇资源,我们如何通过Python访问他们?
2.哪种Python构造对这项工作(NLP)最有用
3.在编写Python代码时如何避免重复?
本章将继续通过在语言处理任务的上下文中的例子介绍编程概念,我们将等到稍后再系统地研究每个Python构造。如果您看到一个不熟悉的示例,请不要担心;简单地尝试一下,看看它能做什么,如果你有兴趣的话,通过用不同的文本或单词替换代码的某些部分来修改它。通过这种方式,您将把任务与编程习惯联系起来,并在稍后学习如何做和为什么这么做。

2.1 Accessing Text Corpora 访问文本语料库

Gutenberg Corpus

import nltk
nltk.corpus.gutenberg.fileids()
emma = nltk.corpus.gutenberg.words(‘austen-emma.txt’)
emma = nltk.Text(nltk.corpus.gutenberg.words(‘austen-emma.txt’))————nltk.Text()转化为text

import nltk
nltk.corpus.gutenberg.fileids()和
from nltk.corpus import gutenberg
gutenberg.fileids() 一样

gutenberg.fileids()
gutenberg.raw() #raw()统计字母数包含空格
gutenberg.words() #
gutenberg.sents() #把text分成句子,每个句子包含很多words列表

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值