练习小项目：微博爬虫

最新推荐文章于 2021-12-31 15:58:15 发布

今天周几

最新推荐文章于 2021-12-31 15:58:15 发布

阅读量604

点赞数 2

分类专栏：爬虫学习文章标签： python 人工智能数据挖掘 selenium http

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/riiki/article/details/105926943

版权

本文作者分享了自学爬虫后实践的一个项目——微博爬虫，主要使用requests库。目标是抓取体育明星罗志祥的微博正文、转发数、评论数和点赞数。面对动态加载的内容，作者通过分析请求头和JSON数据找到了获取数据的方法，避免了使用效率较低的selenium。最终成功实现了微博数据的爬取，并提供了简单的源码展示。

摘要由CSDN通过智能技术生成

自学爬虫近1个月，基本的库啊框架啊基本也都囫囵吞枣的过了一遍，感觉网上视频里各大名师砖家带着练习的项目，基本都是毫无反爬机制的NC网站，感觉若是在实际工作中（没工作过-。-），怕是没有这么容易的网站要你爬取的吧。个人一点愚见，某网站数据有分析价值，才会有人爬，因为给爬多了运营小姐姐很生气，该网站才会去研究怎么反爬，于是反反爬，于是反反反爬，于是反反反反爬。。。。。连selenium这么低效的东西都给扯出来写爬虫，可以看出门户网站的大牛守护运营小姐姐的决心，反正个人暗下决心，不是万不得已，绝不用selenium这等伤敌一千，自损八百的武功。更扯的是，连检测selenium的招儿现在都给门户大佬们找了出来，还运用在了部分网站中。废话结束，来和各位和我一样的萌新分享分享我的微博爬虫，Lets go<(￣︶￣)↗[GO!]
自定需求

门户网站：https://m.weibo.cn/
使用技术：requests以及。。。好像没有了
爬取字段：微博正文，转发数，评价数，点赞数

开始吧

说起爬微博，相信很多人也会和我一样，第一个想爬一爬的自然是体育界男神–罗，志，祥。OK，满怀期待的打开最爱的chrome，输入网址，搜索多人运动，哦不，搜索罗志祥，看看url，去掉没用的部分，找到最简洁的，好的，就是他：https://m.weibo.cn/u/1784537661?uid=1784537661

Ctrl+U，很好，源码空空荡荡，向下翻翻，哦，原来到底了会自动加载，那凭我久经沙场的这些个经验，应该是个ajax动态加载。Ctrl+Shift+I打开检查，锁定ajax，向下拉一下，他来了他来了
格式化json看看里面的数据，需要的数据确实都在里面，就是他了~
回头再看headers，参数也非常的友好，没有任何加密，简单分析基本都能知道是啥东西，除了那个since_id

这可咋整呢，放弃尊严和初心，selenium走起？
不慌，一通乱点之后发现，有这样一个东西

都叫since_id，应该没什么不同了，仔细分析下，发现存放的就是下一页需要给url传的那个值，那就容易了，拼接下url，循环访问，体育男神的微博就都到手了，OK，写代码~
贴上源码
写的比较粗糙，没有修改，毕竟练手小项目，不足之处还请各位补充~

import requests
from fake_useragent

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。