目录
数据清洗
由于导入的数据中存在很多脏数据或异常数据,我们需要通过一定的方法将这些数据处理清理好以便于后期使用数据。
这里介绍5S中的方法来清洗数据。
整理
整理在数据清洗中的含义就是,将数据进行汇总,然后对数据进行取舍,将不需要的数据剔除。
Step1:数据汇总
即将相关的数据汇总到一个表里面,根据数据导入中的方法,我们可以根据数据源的不同,导入来自不同地方的数据。
但是这里存在一个问题,当我们导入多个结构相同,但是数据内容不一样的Excel文件或者其他文本文件的时候,我们除了单个导入外,有没有其他方便快捷的方式呢,答案是有的。
通过Power BI中导入文件夹的方式,将这几个Excel文件一次性导入到Power BI中。
“浏览”选择相应的文件夹,点击“确定”
根据需要选择“组合”,“合并并转换数据”或“合并和加载”,我这里点击“合并和加载”
选择解析样本文件,点击“确定”
这样就可以将文件夹中所有excel文件中的数据全部汇总到Power BI中了。
Step2:筛选
观察导入后的数据,发现有每个数据表中的列内容,这部分内容是我们不需要的,可以通过筛选删除。
点击“数据表”列旁边的小三角,取消勾选“订单编号”,点击“确定”完成筛选。
Step3:删除列
观察数据表中存在文件名列,这一列在我们后期数据分析中是不需要的,这里需要删除相应列。
选中需要删除的列,多列时按住Ctrl键完成多选,然后点击“删除列”
Step4:删除重复项
观察数据表,发现存在多个重复项,此时需要将这些重复项删除。
右击列,选择“删除重复项”
Step5:删除空值
我们观察列中存在多个空值,此时需要将其删除。
点击相应列旁边的三角符号,点击“删除空”