数据分析系列--③RapidMiner算子说明及数据预处理

一、算子说明

1.新建过程

2.算子状态灯 

状态灯说明:

(1)状态指示灯

红色:指示灯说明有参数未被设置或输入端口未被连接等问题;

黄色:指示灯说明还未执行算子,不管配置是否基本齐全;

绿色:指示灯说明一切正常,已成功执行算子。

(2)三角警示牌:用于表明是否有算子的状态信息出现。

(3)断点:用于表明分析员是否在这个算子前面或是后面暂停了流程,以检测中间效果。

(4)注释:如果这个算子中出现了注释,则会通过这个图标表示出来。

(5)子流程:这个图标用来指示是否有子流程。双击算子可以进入子流程。 

3.算子说明及操作

二、数据预处理

1.数据清洗前的简单分析

这张表数据干净,不足以说明问题,下图是我使用的一张正常的数据表,仅用于说明问题.

如下图,因为有缺失值,那就需要考虑该缺失值是否会影响分析结果,若会,需要清理这些缺失值.

点击下载此数据集 下载完成后将表放入Data,别忘了导入.

问题的简单分析(很重要):

可以看到此数据集Customer ID这个Attribute具有918条缺失数据,这是必须要清理的,因为对商品销售情况进行分析,那么Customer ID代表着这是哪一个客户,这个属性缺失意味着找不到这个客户了,那后续做的所有操作均无意义了. 另外Description这个Atturbute也确实了5条.这个属性可以清理也可以不清理,因为描述信息对后续分析不会产生严重影响.

分析出来需要去除缺失值,下面进行缺失值去除.

2.处理缺失值

所用算子是:

运行程序,查看Examples的变化即可.

 

在处理缺失值方面,另外一个算子的作用是一样的.只是我们计划将Description这个描述信息中缺失的数据替换为none.

说明:执行完成总条数还是3450条,因为Customer ID缺失的918条里面,刚好包含Description缺失的5条.

更多清洗后续继续,今天过年,先休息一下.

Thank you all and happy new year. See you after a while. End: 28-Jan-2025 14:35

3.处理重复数据

问题分析:从图可以看出来,此表中Customer ID存在大量重复,换言之,同一个客户买了不同的商品,价格等其他数据可能相同. 所以可以选择对客户数据进行排重. 但要注意,以什么标准来衡量两条数据是否重复呢? 

RapidMiner提供如下的排重方式,具体的公式不在此赘述,仅举例all与single.

所用算子:

选用single的情况说明其实这家店的数据中表明,它已知的客户只有171位.

选用all的情况说明有59条数据是完全重复的.

建议:在你不知道其他算法如何选用的情况下,推荐保守主义的All(在数据处理中,大多数情况下保守是好事). 

小tips:

这里有一些小技巧分享.

你的数据表通常情况都是很大,数据很乱,你并不能一眼看出哪些Attribute是可能重复的,这时候的技巧是使用Sort算子.

比如想知道我上述案例中的发票(Invoice)编号是否有重复:

发票日期(InvoiceDate)是否重复:

先根据发票编号(Invoice),再根据发票日期(InvoiceDate)排序:

那如果是这样呢?

4.排除对分析目标没有影响或影响不大的Attrubute

选用算子:

用法:

5.排除异常数据

排除异常数据这一步不是必须的,但也是最难的部分,难在需要数据分析者对此数据的业务非常熟悉.但可以通过数据透视表进行一些初步的排查.

去除数量小于0的数据.

所用算子:

        

 

 

其他的预处理方法还有很多,请根据业务及数据情况酌情使用.

Ok,Ending and congratulations, you are done. ! 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灰灰老师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值