我在上篇分享的源代码是一个极简的可执行脚本,刚开始学 Python 编程就能看懂,也能改写其中的参数,自己运行。但脚本的功能仅能同时爬取一个知乎用户。
haili:爬虫获取知乎个人主页的基础数据-Python源代码zhuanlan.zhihu.com如果想要获取多个知乎用户,比如知乎粉丝数排行榜 TOP 50 用户,代码需要作出一些升级:
1、爬取单个主页的代码可封装为函数,被调用50次
2、最终输出的结果,简单的字典已经不够;升级为嵌套的字典
3、需要包容异常,遇到异常情况时,能跳过异常继续执行任务
以下是代码:
"""采用 Python Selenium + 无头浏览器,获取知乎粉丝数排行榜 TOP 50 的个人主页基础数据。"""
运行结果:
https
查看结果 rlts 的值:数据量非常大。关注专栏《Python 爬虫实战案例》,下一篇将分享如何对数据进行整理、清洗,并保存到表格文件中。
Python 爬虫实战案例zhuanlan.zhihu.com{