目录
Power BI--数据清洗(清扫)
当我们将数据整顿好之后,我们需要开始对数据清醒修正处理(清扫工作)。
Step1:拆分列
观察数据表发现,“咖啡”列中的内容由两部分组成分别是地点城市和咖啡类型,两者中间用“-”分隔。
为了便于后期数据分析,这里我们需要通过“拆分列”功能将两者分开。
拆分后效果:
参数解释
按分隔符:当数据列中数据之间使用固定符号进行分隔时,选择此方式。列内容将在分隔符处拆分,同时将分隔符删除。
按字符数:当数据列中数据之间存在固定的字符数关系时,即某个类型有固定的位数时,选择此方式。列内容将根据字符数进行拆分。
按位置:根据字符的数据列的坐标进行进行划分,与“按字符数”原理类似。输入数值是升序的整数列表,根据逗号数n将列内容分为n+1列
按照从小写到大写的转换:当某个数据列中数据按照大小写分为两类数据内容时,可以选择此方法拆分列。
按照从大写到小写的转换:与“按照从小写到大写的转换”类似,区别在于顺序不同。
按照从数字到非数字的转换:当某个数据列中数据按照数字和非数字分为两类数据内容时,可以选择此方法拆分列。
按照从非数字到数字的转换:与“按照从数字到非数字的转换”类似,区别在于顺序不同。
Step2:重命名列
当使用拆分列功能后,数据表中会出现一些.数字的列名,此时为了后期数据建模时理解各列的数据含义,需要对数据列重命名。
双击列名即可重命名列。
Step3:提取
当数据列中存在冗余数据时,我们可以通过提取的方法将我们需要的数据提取出来。
如下图我们需要提取出该列中的日期信息,观察数据发现日期信息发现日期数据都在[4:14]这一段类。
选择需要处理的列--点击“转换”--点击“提取”下面的“范围”--输入提取文本的起始坐标和文本长度--点击“确定”
提取后的效果
Step4:格式修整
观察数据表中内容发现,“外文名”列中内容左右有空格,这里需要将空格清除后再做进一步处理。
这时需要使用“格式--修整”功能,来删除这些空格。
选择需要修整的列--点击“转换”--点击“格式”--点击“修整”
参数说明:
小写:将所选列中的数据内容全部转变为小写
大写:将所选列中的数据内容全部转变为大写
每个字词首字母大写:将所选列中的数据内容的首字母大写
修整:将所选列中的数据内容的词首和词尾的空格删除
清除:将所选列中的数据内容的不可打印字符删除
添加前缀:在所选列的数据内容中添加前缀
添加后缀:在所选列的数据内容中添加后缀
修改后效果:
Step5:设置字母的大小写
为了方便处理通常,我们需要将数据内容中的因为部分的大小写统一规定,统一小写,统一大写或统一首字母大写。
这里也是使用“格式--大/小写/每个字词首字母大写”的功能。
操作方法和“修整”类似。选择需要修整的列--点击“转换”--点击“格式”--点击“每个字词首字母大写”
设置后效果: