Python微博移动端爬虫实例(附代码)

專 欄

作者:麦艳涛,挖掘机小王子,数据分析爱好者。




本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!

环境介绍

Python3/Windows-10-64位/微博移动端

网页分析

以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:

在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:

打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:

真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

将网址在火狐里面打开如下图:

上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。

另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。

长按扫描下方二维码,

关注“编程狗”,回复数字“1227”,

获取本文源代码


编  程  狗

编程大牛技术分享平台

Python 中 文 社 区

Python中文开发者的精神部落

合作、投稿请联系微信:

pythonpost

— 人生苦短,我用Python —







Python微博评论爬虫是一种用Python编写的程序,用于获取微博的评论数据。爬虫的整体步骤可以分为以下几个部分。 首先,需要登录手机微博官网,并获取到微博页面的截图。这个步骤主要是为了获取到微博的唯一序列号,即mid,以便后续获取评论数据使用。 接下来,需要找到有效的js包地址,其中包含了评论数据。通过删除多余的参数,我们可以得到有效的js包地址,如"https://weibo.com/aj/v6/comment/small?mid=4465267293291962"。 然后,我们需要通过Fiddler等工具搜索微博页面中的mid信息,这些信息可以在微博的属性中找到。通过提取这些mid信息,我们可以获取到每条微博的评论数据。 在编写爬虫程序时,需要使用到一些工具和库,如Python的requests库、json库、lxml库、urllib库、jieba库(用于分词)、WordCloud库(用于生成词云)。这些工具和库可以帮助我们发送请求、解析数据、进行分词和生成词云。 综上所述,通过以上步骤和使用相关工具和库,我们可以编写一个Python微博评论爬虫,用于获取微博的评论数据。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [python爬虫之爬取手机微博评论(图文并排,炒鸡详细!!!)](https://blog.csdn.net/qq_37708702/article/details/104906832)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【Python爬虫实例学习篇】——5、【超详细记录】从爬取微博评论数据(免登陆)到生成词云](https://blog.csdn.net/qq_40528553/article/details/104095304)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值