今天学编程学到厌倦的时候,突然看到书桌旁边的“Python自然语言处理”这本书。买回来两个月了,还没有认真地去看一看,于是打开琢磨琢磨,顺便实现一个小小的项目。
首先我们需要安装Python,具体的步骤可以百度。然后安装NLTK,从https://pypi.org/project/nltk/上免费下载。按照说明下载适合你的操作系统的版本。安装完成后启动python解释器。输入下面两行命令来安装本书所需要的数据,然后选择book,如图
>>> import nltk
>>> nltk.download()
然后我们来自动检测出现在文本中的特定的词,并显示同一上下文中出现的其他词。我们也可以判断词在文本中的位置:从文本开头算起有多少词出现。这个位置信息可以用离散图表示。每一列代表一个单词,每一行代表整个文本。下图中,我们看到在过去220年中的一些显著的词语用法模式(在一个由就职演说语料首尾相连组合的人工文本中)。可以利用下面的图画出离散图。
实现代码:
>>> from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
>>> text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])
按下回车键,输出如下: