《Python网络爬虫从入门到实践 第2版》第15章 爬虫实践二:知乎Live

本文介绍了如何使用Python爬虫技术抓取和解析知乎Live页面,包括AJAX动态加载地址的解析、JSON数据提取、以及数据存储到MongoDB。项目涉及动态加载的网页爬取、JSON数据结构分析、MongoDB数据存储,并提供了获取所有Live及其听众的代码示例。
摘要由CSDN通过智能技术生成

第15章 爬虫实践二:知乎Live

知乎是中文互联网一个非常大的知识社交平台。在知乎上,用户可以通过问答等交流方式获取知识。区别于百度知道等问答网站,知乎的回答往往非常深入,都是回答者精心写的,知乎上聚集了中国互联网科技、商业、文化等领域里最具创造力的人群之一,将高质量的内容通过人的节点形成规模的生产和分享,构建高价值人际关系网络。

本章为爬取知乎网站的实践项目,所采用的爬虫技术包括以下3种。

·爬取网页:解析AJAX动态加载地址

·解析网页:提取JSON数据

·存储数据:存储至MongoDB数据库

15.1 项目描述

本项目的目标是爬取知乎Live的所有实时语音分享以及知乎Live的听众。知乎Live的URL地址为https://www.zhihu.com/lives,如图15-1所示。

图15-1 知乎Live

15.2 网站分析

打开知乎Live的官方网站主页后,我们发现它一次只会加载10个Live,并且加载的方式不是翻页,而是将页面滑动到最底部,这对获取新加载的Live数据带来了困难。不过不用担心,前面章节的学习为读者带来了诸多解决方法,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值