5.1 数据去重 完全去重

数据清洗

是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。数据清洗的目的在于提高数据质量,将脏数据(脏数据在这里指的是对数据分析没有实际意义、格式非法、不在指定范围内的数据)清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。常见的数据清洗操作包括重复值的处理、缺失值的处理、异常值的处理等操作,同时,为了保证数据的有效性,少不了数据校验操作。

这一个介绍中,我们着重介绍数据去重。

数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其删除,只保存唯一的数据单元,从而消除冗余数据。通常情况下,数据去重方法分为两种,分别是完全去重和不完全去重。

完全去重

完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。

通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。

合并后的用户名单存放在CSV文件merge.csv中,内容如图所示。

通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。

双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示。

 

双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置界面。

在“用来比较的字段”处,添加要去重的字段,这里可以单击【获取】按钮,获取要去重的字段。

选中“唯一行(哈希值)”控件,单击执行结果窗口的“Preview data”选项卡,查看是否消除CSV文件merge.csv中完全重复的数据

 至此,我们就完成了kettle的完全去重。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
要将MySQL 5.1数据迁移到新的数据库,您可以按照以下步骤进行操作: 1. 确保已经将MySQL数据库升级到5.6以上版本,因为Nacos只支持5.6以上的MySQL版本[1]。 2. 备份原始的MySQL 5.1数据库中的所有数据。 3. 创建一个新的MySQL 5.6或更高版本的数据库,并确保该数据库已正确安装和配置。 4. 将备份的数据导入到新的MySQL数据库中。 5. 针对Nacos的要求,在迁移数据之前,请确保将原MySQL安装目录下的data目录中的ibdata1文件覆盖到新的MySQL数据目录中。 6. 启动新的MySQL数据库,并验证数据是否成功导入。 7. 确保您的项目环境已经配置好了Python环境、node.js前端环境和MySQL数据库。 8. 运行您的项目,并确保它可以连接到新的MySQL数据库。 通过按照以上步骤进行操作,您应该能够成功迁移MySQL 5.1数据至新的数据库。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Mysql5.5版本数据迁移至5.7版本](https://blog.csdn.net/weixin_57882850/article/details/123518127)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [基于Django+node.js+MySQL+杰卡德相似系数智能新闻推荐系统-机器学习算法应用(含Python源码)+数据集](https://download.csdn.net/download/qq_31136513/88285126)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kiritobryant

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值