python爬虫爬取微博评论案例详解

最新推荐文章于 2024-05-02 16:32:49 发布

程序员浩然

最新推荐文章于 2024-05-02 16:32:49 发布

阅读量5k

点赞数 3

分类专栏： python爬虫教程文章标签： python 数据挖掘编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haoxun09/article/details/104642147

版权

这篇文章主要介绍了python爬虫爬取微博评论，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
前几天，杨超越编程大赛火了，大家都在报名参加，而我也是其中的一员。

在我们的项目中，我负责的是数据爬取这块，我主要是把对于杨超越的每一条评论的相关信息。

数据格式：{“name”:评论人姓名,“comment_time”:评论时间,“comment_info”:评论内容,“comment_url”:评论人的主页}

以上就是我们需要的信息。

爬虫前的分析：在这里插入图片描述
以上是杨超越的微博主页，这是我们首先需要获取到的内容。

因为我们需要等到这个主页内这些微博详情页的链接，但是我们向下刷新，会发现微博的主页信息是ajax动态加载出来的，
在这里插入图片描述
这张图片就是我们向下刷新获取到的新的链接，这个就是我们需要获取到的信息页面信息。

接下来就是获取详情页面的信息，详情页中含有评论的相关信息，通过向下刷新，我们也会发现，相关的评论信息也是通过ajax加载出来的，在这里插入图片描述

写到这里，给大家推荐一个资源很全的python学习聚集地，点击进入，这里有资深程序员分享以前学习

心得，学习笔记，还有一线企业的工作经验，且给大家精心整理一份python零基础到项目实战的资料，

每天给大家讲解python最新的技术，前景，学习需要留言的小细节
ok，以上就是我们针对整个流程大致的一个分析过程。

具体操作流程：

我们首相将主页获取完成以后，我们就会发现，其中的内容带有相关的反爬措施，获取到的源码中的信息含有很多的转义符“\”，并且其中的相关“<”和“>”是通过html的语言直接编写的，这样会导致我们的页面解析出现一定的问题，我们可以用replace方法直接将这些转义符全部去掉，然后我们就可以对这个页面进行正则处理，同时我也尝试过用其他的解析方法，但是其中遇到

最低0.47元/天解锁文章

程序员浩然

关注

3
点赞
踩
40

收藏

觉得还不错? 一键收藏
4
评论
python爬虫爬取微博评论案例详解

这篇文章主要介绍了python爬虫爬取微博评论，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧前几天，杨超越编程大赛火了，大家都在报名参加，而我也是其中的一员。在我们的项目中，我负责的是数据爬取这块，我主要是把对于杨超越的每一条评论的相关信息。数据格式：{“name”:评论人姓名,“comment_time”:评论时间,...
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。