Power BI--数据清洗(整理)

目录

数据清洗

整理

Step1:数据汇总

Step2:筛选

Step3:删除列

Step4:删除重复项

Step5:删除空值



数据清洗

由于导入的数据中存在很多脏数据或异常数据,我们需要通过一定的方法将这些数据处理清理好以便于后期使用数据。

这里介绍5S中的方法来清洗数据。

整理

整理在数据清洗中的含义就是,将数据进行汇总,然后对数据进行取舍,将不需要的数据剔除。

Step1:数据汇总

即将相关的数据汇总到一个表里面,根据数据导入中的方法,我们可以根据数据源的不同,导入来自不同地方的数据。

但是这里存在一个问题,当我们导入多个结构相同,但是数据内容不一样的Excel文件或者其他文本文件的时候,我们除了单个导入外,有没有其他方便快捷的方式呢,答案是有的。

通过Power BI中导入文件夹的方式,将这几个Excel文件一次性导入到Power BI中。

“浏览”选择相应的文件夹,点击“确定”

根据需要选择“组合”,“合并并转换数据”或“合并和加载”,我这里点击“合并和加载”

选择解析样本文件,点击“确定”

这样就可以将文件夹中所有excel文件中的数据全部汇总到Power BI中了。

Step2:筛选

观察导入后的数据,发现有每个数据表中的列内容,这部分内容是我们不需要的,可以通过筛选删除。

点击“数据表”列旁边的小三角,取消勾选“订单编号”,点击“确定”完成筛选。

Step3:删除列

观察数据表中存在文件名列,这一列在我们后期数据分析中是不需要的,这里需要删除相应列。

选中需要删除的列,多列时按住Ctrl键完成多选,然后点击“删除列”

 

Step4:删除重复项

观察数据表,发现存在多个重复项,此时需要将这些重复项删除。

右击列,选择“删除重复项”

Step5:删除空值

我们观察列中存在多个空值,此时需要将其删除。

点击相应列旁边的三角符号,点击“删除空”

 

<think>好的,我现在需要帮助用户了解Power BI中使用Power Query进行数据清洗的具体步骤。首先,我得回顾一下自己掌握的知识,并查看用户提供的引用内容,确保信息准确。 用户提到了三个引用,其中引用[3]提到了使用List.Accumulate进行批量替换的方法,这可能和数据清洗中的替换值有关。引用[2]讨论了数据刷新,虽然和清洗步骤不直接相关,但可能在数据更新的处理中需要考虑。引用[1]则概述了Power BI的工作流程,从Desktop创建报表到发布和共享,这让我想到数据清洗是在Power Query中进行的,属于整个流程的前期步骤。 接下来,我应该整理Power Query数据清洗的常规步骤。首先,用户需要连接到数据源,这在Power BI Desktop的“获取数据”选项中完成。然后,进入Power Query编辑器,进行初步的数据预览,识别问题,比如缺失值、重复项或格式错误。 数据清洗的具体步骤可能包括删除重复行、处理缺失值(比如填充或删除)、拆分列、更改数据类型、筛选数据行、替换值、添加自定义列以及合并查询等。需要逐一解释这些步骤,并举例说明,比如使用界面操作或M函数。例如,引用[3]中的List.Accumulate可以用来批量替换值,这可以作为一个进阶技巧提到。 同时,需要考虑用户可能的疑问,比如如何自动化这些清洗步骤,或者如何处理更复杂的数据转换。在步骤中应强调应用更改后关闭并应用,这样清洗步骤会被记录并应用到数据模型中。 最后,生成相关问题时,要围绕用户可能想深入了解的点,比如处理缺失值的方法、M函数的使用、性能优化、数据刷新的影响等。确保问题覆盖教程中的关键步骤和用户可能遇到的挑战。 需要检查步骤是否逻辑清晰,是否涵盖了主要的数据清洗操作,并正确引用了提供的资料,尤其是引用[3]中的替换方法。同时,使用中文回答,数学公式正确应用LaTeX格式,但根据用户的问题,可能数学公式较少,重点在操作步骤。确保没有使用Markdown格式,回答结构清晰,分步骤说明,并自然融入引用内容。</think>### Power BI中使用Power Query进行数据清洗的步骤指南 在Power BI中,数据清洗主要通过Power Query实现,其核心步骤可分为以下8个阶段: 1. **连接数据源** -Power BI Desktop中选择「主页」→「获取数据」,支持Excel、CSV、数据库等30+数据源。 - 示例:选择Excel文件后,通过导航器预览并加载数据表。 2. **打开Power Query编辑器** - 加载数据后,点击「转换数据」进入编辑界面,此处可查看数据预览及查询设置面板[^1]。 3. **基础清洗操作** - **删除重复行**:选择目标列→「删除行」→「删除重复项」 - **处理缺失值**:右键列标题→「替换值」输入`null`替换为指定内容 - **拆分列**:对复合信息列使用「按分隔符拆分」或「按字符数拆分」 ```python # 类似Python的字符串操作(仅作逻辑示意) df['地址'].str.split('省', expand=True) ``` 4. **数据类型修正** - 修正错误数据类型(如文本型日期转为日期格式) - 操作路径:列标题右键→「更改类型」→选择目标类型 5. **高级清洗技巧** - **条件列创建**:通过「添加列」→「条件列」实现类似`IF`判断逻辑 $$ \text{新列} = \begin{cases} A & \text{if } x > 100 \\ B & \text{otherwise} \end{cases} $$ - **批量值替换**:使用`List.Accumulate`函数实现多对一替换[^3] ```excel // M函数示例(引用[3]) List.Accumulate( List.Zip({{原值列表}, {新值列表}}), 原始表, (x,y)=>Table.ReplaceValue(x, y{0}, y{1}, Replacer.ReplaceValue, {列名}) ) ``` 6. **数据行筛选** - 使用筛选器下拉菜单排除异常值 - 高级筛选:通过「保留行」/「删除行」实现自定义条件过滤 7. **数据合并处理** - 多表关联时使用「合并查询」功能 - 注意选择正确的连接类型(左外部、内部、完全外部等) 8. **应用并加载数据** - 完成清洗后点击「关闭并应用」,所有操作步骤将自动生成M代码并保存 : Power BI工作流起点为Power Query数据清洗 : 批量替换值的List.Accumulate方法实现[^3]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱学习_程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值