作者: 东军
相信很多朋友被PBI颜值吸引而入了坑,迫切想上手,但往往会卡在数据源环节。本公司数据自己没权限,外公司数据可望不可及,而网络社区里提供的练习数据,往往专业性太强,业务逻辑摸不透,分析更是无从下手。
那有什么办法能方便快捷地找到贴近我们生活的数据吗?
今天咱们就以随处可见的榜单类数据为例,如何通过PBI来导入网页数据,快速建立属于自己的数据源。
一、导入单页数据(无参数)
单张网页的数据导入,其实马世权老师《从Excel到Power BI商业智能数据分析》一书已有过展示(第97页的3.3章节)。这里咱们换个网页,重新走一遍流程,温故而知新。
1. 获取Web数据
2. 复制粘贴网址,确定
3.选中-转换
导航器里出现两张表,很容易就可以判定第一张表就是我们想要的。选中-转换
4. 数据导入成功
根据分析需要,可以在PBI编辑器里作下一步清洗处理(可参见马世权老师《从Excel到Power BI商业智能数据分析》第70页“数据搬运工”章节)
由于网页数据复杂多变,上述步骤三里还会出现大量重复、残缺的表格信息。甚至有时候相同网址,分别用PBI和EXCEL来导入,网页分析结果还有差异。这时就需要耐心仔细,挑选出相对完整的表格数据导入即可。
二、导入多页数据(仅页码参数)
刚才我们成功导入了单页数据,也熟悉了一遍流程。显然单页数据量还达不到数据分析的起步要求,那如何把上述榜单的二十五页明细全部导入呢?
在网页数据导入的所有步骤中,有两个环节最为重要:
a) 如何判定链接与网址的对应关系。
b) 如何判定网址中哪些是关键字符串。
这两个环节,常规网站一般没什么难度,仔细对比就能找到规律。而有些网页就不那么好对付了(尤其像一些财经类网站,基金/股票的排行榜,可以自己去摸索一下),需要用额外工具来解析,这个不是咱们今天讨论的重点,暂且忽略。
既然找到了关键环节,那问题就简单了。前四个步骤(获取、复制粘贴网址、选中、导入)与导入单页数据相同,不再赘述。我们把已导入的数据表重命名(尽量避免出现诸如表1、查询2、函数3,参数4之类的名称)。
多页数据导入的思路:先设定参数。
本例固定变化的是页码,因此