《Python网络爬虫从入门到实践第2版》第15章爬虫实践二：知乎Live

最新推荐文章于 2022-12-10 17:33:15 发布

jxgy01

最新推荐文章于 2022-12-10 17:33:15 发布

阅读量223

点赞数

分类专栏： Python网络爬虫从入门到实践第2版

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jxgy01/article/details/118550834

版权

Python网络爬虫从入门到实践第2版专栏收录该内容

18 篇文章 4 订阅 ¥30.00 ¥99.00

订阅专栏

本文介绍了如何使用Python爬虫技术抓取和解析知乎Live页面，包括AJAX动态加载地址的解析、JSON数据提取、以及数据存储到MongoDB。项目涉及动态加载的网页爬取、JSON数据结构分析、MongoDB数据存储，并提供了获取所有Live及其听众的代码示例。

摘要由CSDN通过智能技术生成

第15章　爬虫实践二：知乎Live

知乎是中文互联网一个非常大的知识社交平台。在知乎上，用户可以通过问答等交流方式获取知识。区别于百度知道等问答网站，知乎的回答往往非常深入，都是回答者精心写的，知乎上聚集了中国互联网科技、商业、文化等领域里最具创造力的人群之一，将高质量的内容通过人的节点形成规模的生产和分享，构建高价值人际关系网络。

本章为爬取知乎网站的实践项目，所采用的爬虫技术包括以下3种。

·爬取网页：解析AJAX动态加载地址

·解析网页：提取JSON数据

·存储数据：存储至MongoDB数据库

15.1　项目描述

本项目的目标是爬取知乎Live的所有实时语音分享以及知乎Live的听众。知乎Live的URL地址为https://www.zhihu.com/lives，如图15-1所示。

图15-1　知乎Live

15.2　网站分析

打开知乎Live的官方网站主页后，我们发现它一次只会加载10个Live，并且加载的方式不是翻页，而是将页面滑动到最底部，这对获取新加载的Live数据带来了困难。不过不用担心，前面章节的学习为读者带来了诸多解决方法，

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。