爬虫抓取新浪微博数据

最新推荐文章于 2024-04-20 16:55:37 发布

区块链研究

最新推荐文章于 2024-04-20 16:55:37 发布

阅读量5.6k

点赞数 1

区块链研究

本文链接：https://blog.csdn.net/milu2003516/article/details/106208880

版权

工具：云采爬虫

目标：抓取某个博主的全部微博

分析网页结构：

我们抓取的思路是模拟浏览器自动访问页面抓取。

我们来看一下页面结构，首先每个微博列表，必须进行三四次的下拉加载，如果底部有个翻页的按钮，那么判断本页加载完成。

登录的问题

抓取需要登录账号，如何登录呢？

登录是不需要验证码的，如果你输入错了，才会叫你输入验证码，所以登录是没什么技术难度的。

我们可以创建一个【登录模块】，先用浏览器登录，往后所有的页面都基于这个浏览器共享的cookie去抓取。

流程图设计：

我们不需要微博的详情页。所以整个爬虫的流程是没有详情页的，数据都从列表里面提取。

爬取结果：

总共花费了5分钟的时间，抓取了10个页面，总计四百条微博。因为我的微博发的不是很频繁。

数据如下：

做个简单的词云：

区块链研究

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
爬虫抓取新浪微博数据

工具：云采爬虫目标：抓取某个博主的全部微博分析网页结构：我们抓取的思路是模拟浏览器自动访问页面抓取。我们来看一下页面结构，首先每个微博列表，必须进行三四次的下拉加载，然后底部有个“下一页”的按钮。如此，不断循环。登录的问题抓取需要登录账号，如何登录呢？登录是不需要验证码的，如果你输入错了，才会叫你输入验证码，所以登录是没什么技术难度的。流程图设计：整个流程图的思路基本上是这样：登录---下拉---下拉---下拉---点击下一页我们不需...
复制链接

扫一扫

区块链研究 CSDN认证博客专家 CSDN认证企业博客

码龄15年

8: 原创

10万+: 周排名

34万+: 总排名

3万+: 访问

: 等级

403: 积分

22: 粉丝

10: 获赞

6: 评论

76: 收藏

私信

关注

热门文章

分类专栏

笔记 1篇

最新评论

web3.eth.getPendingTransactions() 返回空？
Mr_chenweida: 非常感谢您的帮助，经过排查好像是我的本地geth启动有问题，请问如何正确启动geth呢
web3.eth.getPendingTransactions() 返回空？
区块链研究: 监听 pendingTransactions 事件，自己百度搜索“ pendingTransactions”
web3.eth.getPendingTransactions() 返回空？
区块链研究: https://web3js.readthedocs.io/en/v1.5.2/web3-eth-subscribe.html#subscribe-pendingtransactions
web3.eth.getPendingTransactions() 返回空？
Mr_chenweida: 请问具体如何操作呢？我已经同步过全节点
web3.eth.getPendingTransactions() 返回空？
区块链研究: 订阅就行了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。