剔除重复_数据清洗很神秘?其实你都在重复做,学会这十招帮你摆脱重复

-爱数据学习社,职场学习分享平台-

ffcdc88b73db8049a2e72117963eb8eb.png

作者:Jary Yuan

整理:爱数据Knox


数据清洗听起来很神秘,其实每一个职场人在用 Excel 的时候几乎都会重复的在做。在数据真正能为我们所用之前,对数据删除空行空列、清除空格打印字符、分列、替换等都是数据清洗过程。 将杂乱无章的数据整理成有规则的、可供分析的过程,可以称之为「数据清洗」。 导入 Power Query 查询编辑器的数据如下,我们通过菜单中的 10 个功能进行数据清洗。 d4414127caefbd186f70036c3a24adba.png Ch07 Examples\GL Jan-Mar a8e4c00c32b12b3ec07f2812a49b0dd4.png 删除行 导入数据的前10行都是无用的标题行,可以使用 Power Query 主页提供的「删除行」功能进行删除。 144d886fa50a360d23fb24d47e7d873c.png PQ提供了丰富的删除行操作,这里我们选择:删除最前面的几行  > 10 >  确定。

9104362758fc345046e30e15d3383814.png

修整和清除 现在数据看起来规整多了,但是我们仔细观察可以看到列的两边有多余的空格,同时还有一些打印字符需要将其清除。 d9f71dd0c843f1388a0c157ba78971e0.png 选中列,在转换选项卡下,格式功能中可以找到「修整」和「清除」。 0b0053d66ac9b9b2f0e546693b2b6e54.png 在 Excel 中有 Trim() 及 Clean() 函数可以将前导、尾随及中间多余的空白单元格删除(字符中间仅保留一个单元格)。不同的是,PQ的「修整」功能并不能删除字符中间多余的空格。

fc00478950ddbd4c39d7277dcfb273e2.png

按字符数拆分列 和 Excel 的拆分列功能相似,我们可以看到 PQ 将数据识别成了单独的一列。需要我们自己手动拆分列。 主页 > 拆分列 > 按字符数 > 15 ec832a7b2501fff45c44be86d2cc5df3.png 这里拆分的字符数可以根据日期列的字符数进行确定初始值,然后进行调试,找到最佳的拆分字符数。 207acb7f214db99673d6e58c588f8fce.png 拆分完后更具规则的数据

1f6116f6bdd9c9b3d68aa660c4615355.png

提升标题 这时我们需要给每列一个有意义的名称,可以看到第一行就是列的标题。因此可以直接使用「将第一列用作标题」提升标题行。 b3c3e42dfd69db67d24254ba670d4b54.png

26761496da2e78abb4b66b68dc83e293.png

更改数据类型 PQ 默认会根据列的数据特征自动更改列的数据类型,然而它并不能每次都准确识别,所以有时我们需要自己更改数据类型。 501fea48a109d16abc04aba7e685dc62.gif

159d2245bbf7fbb032bacd811a952666.png

删除错误值 转换数据类型操作后,可以看到列的下方出现了红色的标记,这是 PQ 提醒我们数据列存在错误值,往下拉到第 44 行可以发现错误值。 a012740d63d6f329a5dd71009750d522.png 因为数据类型转换失败导致的错误值 当确认了这些属于无用字符导致的转换失败以后,可以删除错误行。 主页  > 删除行 >  删除错误 668729254cc970603fbf9dae9a5423c1.png

3c282f7b84caadfe6cbe6bbe742de3ee.png

筛选剔除行 删除错误以后,第一列还有灰色的提示,说明该列还有无用的空行。 4fbda41a53d769a0134917ea096f9d66.png 可以通过列的筛选功能,剔除空行,选中第一列,筛选取消勾选 (null)。 3cdcd5cb0519cbb482ff6617637c23b9.png a0a9406a6681e05a4ff69424e38e26a5.png删除列 删除数据中的空列。选中空列,右击鼠标删除列。 70e689c51ca3a8c530d463ed7c4807ee.png

e3eaa70380b0f5a220fd4bb531b4d796.png

合并列 处理到这一步数据已经基本清洗干净了。往后看,可以发现有两列在开始按字符数拆分时,被错误的拆开了。 e35549300f3d5aa68bf05c8497b10c3b.png 我们可以使用「合并列」功能进行逆操作,「合并列」相当于 Excel 中的连接字符 「&」。 选中以上两列,点击转换> 合并列 f214174b8abe77781c57582d0fd22964.png 弹出的对话框中指定新的列名,点击确定完成合并。 82ecceaf7b5a5da52046d2fa3992cf58.png

c91db39901032ae0d584fc8685904ae9.png

按分隔符拆分列 合并的 Reference Information 列包含双重信息,并且可以按照分隔符「 - 」进行拆分。 选中该列,点击转换拆分列 > 按分隔符 > - 64f181d25248cef56997c85790621ecf.gif 学会以上十招,基本也就掌握了PQ 常用的数据清洗功能,只要认真跟着操作一番,相信对 PQ 会有不一样的理解,同时对于文章没有出现的其它数据转换功能也会具备一定的自我探索能力。 也许你会问这些都能在 Excel 中实现,为什么要一定要在 PQ 中处理 ?,在 Excel 中当你面临同样的需求时,所有的导入文本、删除行、合并拆分列,你都需要重新操作一遍。 而在 PQ 中,以上操作都已经被录制下来 (类似宏) ,当你面临同样需求时,只要更改数据源就可以一键执行整个清洗工作。

-END-

本文首发于爱数据讲师Jary Yuan公众号

转载请联系:Jary Yuan(ID:ExcelPlus007)

6ff772c247b6bcbad8a26e4f1f137e7b.gif 7c6ccf8c47e410cceb3e0c617d8b04cb.gif

点击 阅读原文 查看精品课程~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值