第二章-获取文本语料和词汇资源(Natural Language Processing with Python第二版)

最新推荐文章于 2023-04-13 09:49:37 发布

SherryLovesCoding

最新推荐文章于 2023-04-13 09:49:37 发布

阅读量286

点赞数

分类专栏： python自然语言处理文章标签：文本库和词汇资源 NLP

本文链接：https://blog.csdn.net/SherryLovesCoding/article/details/90213972

版权

python自然语言处理专栏收录该内容

10 篇文章 3 订阅

订阅专栏

探索的问题

1.什么是一些有用的文本语料库和词汇资源，我们如何通过Python访问他们？
2.哪种Python构造对这项工作（NLP）最有用
3.在编写Python代码时如何避免重复?
本章将继续通过在语言处理任务的上下文中的例子介绍编程概念，我们将等到稍后再系统地研究每个Python构造。如果您看到一个不熟悉的示例，请不要担心;简单地尝试一下，看看它能做什么，如果你有兴趣的话，通过用不同的文本或单词替换代码的某些部分来修改它。通过这种方式，您将把任务与编程习惯联系起来，并在稍后学习如何做和为什么这么做。

2.1 Accessing Text Corpora 访问文本语料库

Gutenberg Corpus

import nltk
nltk.corpus.gutenberg.fileids()
emma = nltk.corpus.gutenberg.words(‘austen-emma.txt’)
emma = nltk.Text(nltk.corpus.gutenberg.words(‘austen-emma.txt’))————nltk.Text()转化为text

import nltk
nltk.corpus.gutenberg.fileids（）和
from nltk.corpus import gutenberg
gutenberg.fileids() 一样

gutenberg.fileids()
gutenberg.raw() #raw()统计字母数包含空格
gutenberg.words() #
gutenberg.sents() #把text分成句子，每个句子包含很多words列表

SherryLovesCoding

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第二章-获取文本语料和词汇资源(Natural Language Processing with Python第二版)

探索的问题1.什么是一些有用的文本语料库和词汇资源，我们如何通过Python访问他们？2.哪种Python构造对这项工作（NLP）最有用3.在编写Python代码时如何避免重复?本章将继续通过在语言处理任务的上下文中的例子介绍编程概念，我们将等到稍后再系统地研究每个Python构造。如果您看到一个不熟悉的示例，请不要担心;简单地尝试一下，看看它能做什么，如果你有兴趣的话，通过用不同的文本或...
复制链接

扫一扫

专栏目录