PowerQuery知识点总结
一、Power Query介绍
1.1 Power Query是什么
Power Query是实现数据获取和数据清理的一个工具
例如:在有很多种格式数据源的情况下,需要一个一个数据源(数据库、json、Hdfs、 文本、csv 等)去处理,让其格式统一并合并分析处理, 但是Power Query 可以解决这个问题
Excel中Power Query的位置(365版本):数据菜单下的获取和转换数据、查询和连接功能区
1.2 Power Query的功能
-
数据获取:从不同来源、不同结构、不同形式获取数据,并按统一格式进行横向合并、纵向(追加)合并、条件合并等
-
数据转换:将原始数据转换成数据处理所需的结构或格式
-
数据处理:为后续分析做准备,例如:加入行、列;处理某些单元格值等
-
数据共享:共享到Excel或者Power Pivot进行下一步分析
-
实现一键自动刷新:基于数据共享,源数据集更新,加载到Excel和Power Query中的数据也会更新
二、Power Query数据获取
2.1 数据获取方式
2.1.1 如何导入数据
Power Query有强大数据处理功能,几乎可以从任何来源、任何结构、任何形式上获取数据,如下图:
2.1.2 导入数据后相关操作
加载:数据会被加载到excel中,并在excel显示出来
加载到:会出现选项进行选择
-
表:加载到现有工作表/新工作表
-
数据透视表:会在现有工作表/新工作表创建一个数据透视表
-
数据透视图:会在现有工作表/新工作表创建一个数据透视图
-
仅创建连接:数据不会加载到excel中,但是Query编辑器有(只是在excel界面中看不到数据)
好处:一些辅助表和辅助列,不用返回到excel中
数据加载流程:源数据→Power Query(数据处理)→Excel
转换数据:进入Power Query编辑器
关闭并上载 = 导入数据时的加载
关闭并上载至 = 导入数据时的加载到
进入Power Query编辑器后,无法对excel进行操作
如何从编辑器返回到excel,点击关闭并上载或关闭并上载至
如果关闭并上载或关闭并上载至为灰色,代表之前已经执行过相关操作
导入多份数据:
-
方式一:导入一份数据后,若其他数据和已导入数据不在一个工作簿,点击新建源→文件→Excel工作簿(或其他)
-
方式二:将已导入数据关闭并上载至仅创建连接,再从数据菜单下导入数据
2.1.3 一些窗口和功能的说明
查询&连接窗口的显示:
- 方式一
Query编辑器的进入:
- 方式一:导入数据时点击转换数据。
-
方式二:导入数据后,双击查询&连接窗口的任意一个连接。
-
方式三:导入数据后,右键查询&连接窗口的任意一个连接,选择编辑,
。
-
方式四:导入数据后,点击上方查询→编辑。
excel中导入的某些数据不需要显示:
方式:右键查询&连接窗口的任意一个连接,选择加载到里的仅创建连接。
2.2 网页数据抓取
从web中加载数据 http://www.boc.cn/sourcedb/whpj/
更加复杂的网页数据爬取在Power BI 中进行