这里介绍一个简单地例子,如何从一步一步爬取数据到可视化显示,主要用到requests+BeautifulSoup(爬取数据)+pyecharts(可视化)这3个包,实验环境win10+python3.6+pycharm5.0,主要步骤如下:
1.为了方便演示,我们这里以人人贷上面的债权数据为例,如下,主要爬取借款标题和金额这2个字段,后面也是以这2个字段数据作为统计和可视化的基础:
2.分析这个页面可知,数据是异步加载的,在一个json文件中,如下,对应到json中,也就是title和amount这2个字段的内容:
3.针对这个json文件,主要解析代码如下,主要用到json这个包,代码很简单,也就十几行而已,主要基于dict字典按借款类型统计数据:
运行代码,程序截图如下,已经成功爬取到了我们要打印的内容:
4.可视化显示,这里主要用到pyecharts这个包,使用起来很简单,主要基于web浏览器进行显示,图片很美观,我这里可视化显示,主要用到柱状图、饼状图和漏斗图3种类型的图,如下:柱状图,这里主要统计了每种借款类型的最大金额和最小金额,代码量很