网站手工添加一行数据_Power Query 抓取网贷问题平台数据

网贷平台频繁暴雷,截止2019年12月共有5800家网贷平台出现问题,其中半数以上失联,仅有5.84%的平台警方介入处理。

d9838ee753b96a8cab0ce3ef591f3f8c.png

今天我们来做一个问题平台数据的抓取测试,有很多网站提供网贷数据查询服务:

8041125463d13af3f4296ff858e72f9a.png

这个网站的数据就不错,图表也挺漂亮的,图表的下面就是问题平台的数据表:

f528cd46290765d266df8d921cc1c313.png

默认的页面提供前20条数据,点击下面的加载更多会增加20条,其实就是个查询按钮,那么我们开始Power Query网络抓取的步骤。

网站分析

F12打开谷歌浏览器的检查页面,按CTRL+R重新加载,点击加载更多就会出现一行新的查询出来:

238e42af79b3c334517c9f6c7a5487a2.png

通过预览,可以看到对应JSON数据,我们再一下加载更多数据:

20e9f2d80dd006709958137448d470b7.png

页码page从2变成3,一共5800个平台,就要有290页。

我们来查看url:

759e169349fbcf0a3b9aa24dcc81b365.png

这应该是真是网址,有查询页码。至此我们的网站分析基本可以结束了。

试抓

试抓过程就是为了验证我们网站分析的过程是不是正确,我们在分析过程中注意到这个网站数据传递方式是POST,先不管是POST还是GET,我们直接用整串网址抓一下试一试:

e18dc821f7cde99487e65516c24426c8.png

看起来好像不可以直接抓取,什么表也不存在。

不要急我们看看web视图的内容:

650229df7dba5d85ddf764e0c581f995.png

看起来是乱码,但是认真观察数据的结构,看起来是标准的JSON结构,而且应该就是我们需要的数据,不过是通过url编码的数据。我们试着用JSON来解析这个数据:

267f46e1f759cb30e2d3fa15ca7afeba.png

果然可以。展开数据:

68a5d1e4a087471c1ab28856ea6dfb2f.png

就是我们需要的数据,试抓过程结束。

定义函数

根据试抓查询过程创建函数:

d39ed6a69814a864a5503707271211c6.png

添加页码参数p,因为页码是数值,我们用一个Text.From函数将数值转换成文本用&拼接起来:

844413b388fbac723df5c3da0168ed01.png

这样这个单页数据抓取函数就定义好了。

抓取

有了函数抓取就简单了,用List.Transfrom函数历遍抓取:

00bb922c896cb5bded761f3b95b78d36.png

一共抓取290行,然后展开整理数据:

bf6651dee6f4123222daeb040c0d352a.png

通过4个步骤,我们就把问题平台数据全部抓取下来了。

接下来你就可以用抓取的数据做自己的可视化图表了:

c724e6b30d0e65a6d5aed71f56a220f0.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值