自然语言处理——实现美国总统就职演说词汇分布图

最新推荐文章于 2024-03-13 20:51:05 发布

数据分析狮小z

最新推荐文章于 2024-03-13 20:51:05 发布

阅读量714

点赞数 1

分类专栏： 2019.1.7 文章标签：自然语言处理 NLP 随时间推移语言使用上的变化

本文链接：https://blog.csdn.net/bug_fuck/article/details/86022506

版权

2019.1.7 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天学编程学到厌倦的时候，突然看到书桌旁边的“Python自然语言处理”这本书。买回来两个月了，还没有认真地去看一看，于是打开琢磨琢磨，顺便实现一个小小的项目。
　　首先我们需要安装Python，具体的步骤可以百度。然后安装NLTK，从https://pypi.org/project/nltk/上免费下载。按照说明下载适合你的操作系统的版本。安装完成后启动python解释器。输入下面两行命令来安装本书所需要的数据，然后选择book，如图

>>> import nltk
>>> nltk.download()

在这里插入图片描述
　　然后我们来自动检测出现在文本中的特定的词，并显示同一上下文中出现的其他词。我们也可以判断词在文本中的位置：从文本开头算起有多少词出现。这个位置信息可以用离散图表示。每一列代表一个单词，每一行代表整个文本。下图中，我们看到在过去220年中的一些显著的词语用法模式（在一个由就职演说语料首尾相连组合的人工文本中）。可以利用下面的图画出离散图。
实现代码：

>>> from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908

>>> text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

按下回车键，输出如下：
美国总统就职演说词汇分布图：可以用来研究随时间推移语言使用上的变化

数据分析狮小z

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录