2.4 一个案例带你了解Power Query常用操作

在本文中,我们将会使用一套简单的案例数据进行一次完整的清洗,尽量覆盖到Power Query中最常用的功能,这些数据也会在接下来建模和DAX语言的讲解中继续用来作为示例数据。

关于案例数据

我们从 世界银行 Indicators | Data 下载了如下四项指标:0-14岁的人口(占总人口的百分比)、15-64岁的人口(占总人口的百分比)、65岁和65岁以上的人口(占总人口的百分比)、人口总数。另外还有一张也是官方提供的维度表,是国家名称、编码、归属区域、收入等级等基础信息。

因为这些数据不涉及更新,为了本地文件管理方便,我将这些数据表合并在了同一个excel中,实际操作中使用独立的文件也完全没有问题、甚至是更加灵活。因为不论是一个excel中的多个工作表、还是独立的多个excel文件,在导入后都是每张工作表形成一个数据源,在数据源数量上没有区别,按照个人使用习惯即可。

如下图所示,这些指标数据都拥有相同的结构,即数据主体从单元格A4开始,包括Country Name、Country Code、Indicator Name、Indicator Code等四个维度字段,以及1960-2021之间62年的数据,每年单独为一列。

国家维度表的结构如下:

维度表的清洗

如下图所示,国家表在初导入时,表头并未被识别,因为power query是根据第一行数据与后面的数据之间的差异来判断是否是表头的,因为该表是纯文本的,差异不明显,因此会被误判,这时很简单,点击“将第一行用做标题”即可完成标题的提升。

然后观察这张表,通常只要有编码列,我们都推荐使用编码做为各数据表之间关联用的字段,因为它具有非重复性,字段名下方的统计信息中显示没有空值,目测该列信息是完整的。如果对编码的唯一性不放心,也可以在“转换-统计信息”中,对该列进行非重复计数,用于确认。

在该表中我们可以看到,国家名称有空值,经过观察可以发现,该字段为空的记录中,地区以及收入等级列也都是空,可以认为是无效数据,所以也可以对国家名称列进行筛选,过滤掉空值。(这步不做也不要紧,因为影响的数据量很小,而且在报表中过滤也能实现相同的效果)。

数据表的清洗(年龄分组的同构指标)

step1 删除多余行

以0-14岁的数据为例,当数据导入后,power query执行默认的操作步骤,将第一行提升为标题,因此从c列之后因为第一行为空,都被赋了column3……等一系列默认标题,而我们实际要用的标题还处于第3行。

从菜单栏中选择:主页-删除行-删除最前面的几行,输入2行,即可将前面的行删除。

事实上,目前已执行的“提升标

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PowerBI系列之Power Query专题1.  获取数据 数据源种类介绍和获取Excel数据源输入数据和拷贝数据:创建辅助表解析Json/XML数据格式获取Web网页数据和URL添加动态参数连接数据的四种模式:Import、DirectQuery、Live Connection、Dual双 属于混合模式连接数据库:Sql server、 Mysql(直连但是必须先安装一个mysql插件)DirectQuery直连查询:Sql serverODBC方式获取数据表关联或多个Sql或调用存储过程获取数据SQL中动态传参和自定义函数: sql中使用参数或数据库名称使用参数连接Sharepoint和OneDrive数据源连接Dataset和Dataflow 替换本地数据源为Sharepoint数据源并保留数据处理操作 终止当前数据刷新Loading:Cancel Query数据源设置-重置数据连接凭证PBIDS连接数据源创建和使用报表模块(输入或值列表)利用报表模板和参数控制线下报表数据权限DirectQuery启用自动页面刷新和更改检测管理聚合表提高DirectQuery查询性能动态M查询参数提高DirectQuery查询性能添加数据刷新时间 DateTime.LocalNow()和Getdate()2.  数据清洗和M语言M语言和官方文档介绍PowerQuery中查阅M函数:=#shared, Ctrl+Space提示数据清洗之常用技能:提升标题、更改数据类型、保留删除错误或空行,删除重复项、选择列和删除列、填充单元格、合并列、拆分、提取、替换、条件替换、添加自定义列,添加条件列、添加索引列、分组、添加年月日列、追加和合并查询透视和逆透视以及转置合并单元格的Excel文件处理导入文件夹中多Excel文件并合并解决多文件合并中列顺序不一致使用参数和函数批量导入文件 文本中提取中文、英文、数字等处理双引号转义 列拆分详解解决列名改变错误解决列丢失错误动态显示、排序和重命名列为所有列名添加前缀列名字母大写和分隔符调整Trim标题列中的多余空格如何处理load数据错误为什么load的Excel数据有null空行为什么load的Excel数据标题在第二行灵活添加占位符规范同类相似数据数据按多列排序为分组添加Index序号分组内值合并诊断工具分析数据处理过程PowerQuery小技巧分享 新冠病例活动轨迹地图标识 

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值