这篇文章主要介绍了python爬虫爬取微博评论,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员。
在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息。
数据格式:{“name”:评论人姓名,“comment_time”:评论时间,“comment_info”:评论内容,“comment_url”:评论人的主页}
以上就是我们需要的信息。
爬虫前的分析:
以上是杨超越的微博主页,这是我们首先需要获取到的内容。
因为我们需要等到这个主页内这些微博详情页 的链接,但是我们向下刷新,会发现微博的主页信息是ajax动态加载出来的,
这张图片就是我们向下刷新获取到 的新的链接,这个就是我们需要获取到的信息页面信息。
接下来 就是获取详情页面的信息,详情页中含有评论的相关信息,通过向下刷新,我们也会发现,相关的评论信息也是通过ajax加载出来的 ,
写到这里,给大家推荐一个资源很全的python学习聚集地,点击进入,这里有资深程序员分享以前学习
心得,学习笔记,还有一线企业的工作经验,且给大家精心整理一份python零基础到项目实战的资料,
每天给大家讲解python最新的技术,前景,学习需要留言的小细节
ok,以上就是我们针对整个流程大致的一个分析过程。</