python爬虫爬取标签内容_爬虫之使用requests爬取某条标签并生成词云

最新推荐文章于 2023-01-14 12:38:46 发布

weixin_39785858

最新推荐文章于 2023-01-14 12:38:46 发布

阅读量2.1k

点赞数

文章标签： python爬虫爬取标签内容

本文介绍了使用Python爬虫抓取标签内容的步骤，涉及requests、fake-useragent等库，以及如何生成词云。首先通过伪装IP防止被封，接着爬取xhr接口获取标签数据，最后利用BeautifulSoup解析并存储标签，生成词云。

摘要由CSDN通过智能技术生成

一、爬虫前准备

1.工具：pychram(python3.7)

2.库：random，requests，fake-useragent，json，re，bs4，matplotlib，worldcloud，numpy，PIL，jieba

random：生成随机数

requests：发送请求获取网页信息

fake-useragent：生成代理服务器

json：数据转换

re：用于正则匹配

bs4：数据过滤

matpotlib：图像处理

worldcloud：生成词云

numpy：图像处理

PIL：图像处理

jieba：对中文进行分词(本次未用到)

3.爬虫流程

使用代码模拟浏览器发送请求-->浏览器返回信息(html/json)-->提取有用的信息-->进行储存

1)发起请求

使用代码向目标站点发送请求，即发送一个Request

请求应包含：请求头、请求体等

2)获取响应内容

发送请求成功后，会获得站点返回的信息(Response)

3)提取信息

解析html数据：正则表达式(RE模块)，第三方解析库如Beautifulsoup，pyquery，xpath等

解析json数据：json模块

4)储存信息

以文件存储

存入数据库

二、开始爬虫

1.防止ip被封

为了防止多次访问某站点导致IP被封，对IP进行伪装。

找一些提供免费IP的网站爬取IP数据存储到本地文件中，将爬虫进行到底。

1 #__Author__ :"Chen Yang"

2 #__Time__: 2019/8/22 20:56

3

4 importrequests5 from fake_useragent

最低0.47元/天解锁文章

weixin_39785858

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取标签内容_爬虫之使用requests爬取某条标签并生成词云

一、爬虫前准备1.工具：pychram(python3.7)2.库：random，requests，fake-useragent，json，re，bs4，matplotlib，worldcloud，numpy，PIL，jiebarandom：生成随机数requests：发送请求获取网页信息fake-useragent：生成代理服务器json：数据转换re：用于正则匹配bs4：数据过滤matpotl...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。