因为在Excel里面难以实现自动登录
今天介绍一种用PowerQuery爬取生意参谋数据的方法,只作学习用,拓展一下思维,切忌大量爬取生意参谋数据,以免被封!
需要用到M语言的几个函数:
Json.Document() 用来解析Json代码
Web.Contents(url,[Headers=headers,Query=query]) 用来获取页面数据
首先找到想要爬取的数据,此文以爬取生意参谋-首页-整体看板的数据为例。
想要爬取数据,首先要找到数据在哪里。
鼠标右击网页任意位置,选择“审查元素,或者”按F12健。
点击”Network”,然后点击”XHR”,数据就藏在左侧的文件中,可以依次点击查看。
发现数据在getTrend.json这个文件下,在Preview标签中可以看到我们要爬的数据。
接下来我们需要获取3部分内容,URL,Headers,Query。点击Headers标签。
标红的部分是我们需要的内容(Headers部分从cookie开始复制,前面部分不需要),为便于编辑,可以把这3部分内容分别复制粘贴到记事本。
上图对代码的含义做了简单说明。接下来需要将3段内容进行简单的处理,以便PowerQuery能够正确识别。
先把输入法切换到英文状态。