参考书籍《Python自然语言处理》,学习python文本分析
书籍中的版本是Python2和NLTK2,我使用的版本是python3.6和nltk3.3
NLTK的安装
首先,cmd窗口下输入
pip install nltk
python下输入以下命令,导入NLTK的数据模块
>>> import nltk
>>> nltk.download()
打开下载界面,选择导入book,设置下载目录 C:\nltk_data
下载完成之后,测试安装
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
下载完成之后,输入以下命令,查看“从NLTK的book模块中加载所有的条目”
from nltk.book import *
无论什么时候想要找到这些文本,只需要再Python提示符后输入它们的名字即可。如上图输入text1,就可以输入它的内容
现在就可以使用book里的数据了
现在就可以使用book里的数据了
其它架包安装
1)numpy安装
科学计算库,支持多维数组和线性代数,在某些计算概率、标记、聚类和分类任务中用到。
cmd窗口
pip install numpy
python导入
import numpy
2)matplotlib安装
数据可视化的2D绘图库,在产生线图和条形图的程序例子中用到
pip install matplotlib
python导入
import matplotlib
3)networkx安装
用于存储和操作由节点和边组成的网络结构的函数库。可视化语义网络还需要安装Graphviz 库。
cmd窗口
pip install networkx
python导入
import networkx
4)Prover9安装
这是一个使用一阶等式逻辑定理的自动证明器,用于支持语言处理中的推理。
暂未安装
5) 安装beautifulsoup4
html标签处理
cmd安装
pip install beautifulsoup4
python导入
from bs4 import BeautifulSoup
6)feedparser
cmd窗口
pip install feedparser
python窗口
python shell窗口导入,cmd安装时,如果该窗口是打开状态,直接导入,报错,关闭窗口再打开,导入成功
import feedparser
其它命令-cmd窗口下
查看python版本
python - version
升级pip
python -m pip install --upgrade pip
查看安装库list
pip list