python爬虫词云_利用爬虫做词云分析

最新推荐文章于 2024-08-21 18:17:45 发布

weixin_39885469

最新推荐文章于 2024-08-21 18:17:45 发布

阅读量1.5k

点赞数 2

文章标签： python爬虫词云

本文介绍如何使用Python爬虫获取网页内容，并结合jieba分词和WordCloud进行词云分析。以搜狐新闻为例，通过requests和BeautifulSoup库获取并解析页面，使用jieba进行中文分词，最后生成词云图。

摘要由CSDN通过智能技术生成

首先跟大家解释下，为什么更新的是关于爬虫的内容而不是open.cv。因为小编想继承上一篇帖子(python数据可视化之WordCloud)的内容，上篇帖子只是简单的介绍了wordcloud的安装和使用方法，但是应用部分却没有怎么提及。今天，我们用爬虫来获取网页，然后再用word cloud做词云分析。

一、爬虫框架的搭建

1.1网络爬虫的基本思路

爬虫的目的是获取网页的信息，一般的应用就是搜索引擎了。今天小编就以爬取搜狐新闻为例跟大家聊聊爬虫的这些事儿。我们一般是通过requests库向web提出请求，然后通过BeautifulSoup库对页面内容进行解析，再次是利用正则表达式对获取的页面内容进行详解和筛选关键信息。具体的流程如下图：

爬虫1.PNG

安装requests库的方法：只需在命令行输入：“pip install requests”即可，这次我们用到的库一共是5个：requests、BeautifulSoup、jieba、re(re是python的内置模块，无需安装)、WordCloud。前三种库的安装方法同requests是一样的，所以小编就不赘述，WordCloud的安装参考这篇帖子。

requests库的使用方法很简单，也很容易掌握，主要的方法如下：

爬虫2.PNG

接下来，小编介绍下jieba库的使用：jieba是优秀的中文分词第三方库，中文文本需要通过分词来获得单个词语，它提供三种分词模式，主要是依靠中文词库，除

最低0.47元/天解锁文章

weixin_39885469

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。