NLP(Natural Language Processing),自然语言处理,今天我们主要来研究一下如何用Python去完成简单的自然语言处理。
NPL可以用来做什么呢?
他能做的事情非常多,例如翻译,垃圾邮件过滤,搜索引擎等等。
今天我们用到的模块有:
NLTK 专门做自然语言处理
bs4 BeautifulSoup ,爬虫的一个框架
html5lib BeautifulSoup解析时用的
matplotlib 数据可视化(使词频统计更加形象的展示)
我们通过简单的pip安装语句就可以完成以上四个模块的安装了:
pip install nltk
pip install bs4
pip install html5lib
pip install matplotlib
以上模块完成安装之后我们需要完善一下nltk的库
在cmd指令窗输入Python(运行Python):
import nltk
nltk.download()
弹出一个界面,把里面的所有模块都安装了(点击all即可),如下图:
之后我们用request去爬某个网页,再使用bs4清洗一下文字,最后再用split()处理一下:
输出结果:
我们现在通过nltk中的FreqDist()方法来统计词频:
输出:(输出结果太多,这里截取部分结果)
感觉太乱了,我们可以画图看看:
freq.plot(20,cumulative=False)
打印结果:
可以看出来Python出现的词频是最高的。
但是从上面的结果我们能看出一些无用的词汇,这时候就需要处理停用词了
清除无效的单词:
这样的效果会比刚刚好一点。
这一期我们就到这里吧
下期见。