第15章 爬虫实践二:知乎Live
知乎是中文互联网一个非常大的知识社交平台。在知乎上,用户可以通过问答等交流方式获取知识。区别于百度知道等问答网站,知乎的回答往往非常深入,都是回答者精心写的,知乎上聚集了中国互联网科技、商业、文化等领域里最具创造力的人群之一,将高质量的内容通过人的节点形成规模的生产和分享,构建高价值人际关系网络。
本章为爬取知乎网站的实践项目,所采用的爬虫技术包括以下3种。
·爬取网页:解析AJAX动态加载地址
·解析网页:提取JSON数据
·存储数据:存储至MongoDB数据库
15.1 项目描述
本项目的目标是爬取知乎Live的所有实时语音分享以及知乎Live的听众。知乎Live的URL地址为https://www.zhihu.com/lives,如图15-1所示。
图15-1 知乎Live
15.2 网站分析
打开知乎Live的官方网站主页后,我们发现它一次只会加载10个Live,并且加载的方式不是翻页,而是将页面滑动到最底部,这对获取新加载的Live数据带来了困难。不过不用担心,前面章节的学习为读者带来了诸多解决方法,