数据清洗过程中经常会遇到重复值的问题,比如电商业务中,商家有内部的商品编码,无商品名称。而天猫平台上的商品ID对应多个商品名称。
如果不剔除它们,后续在给含商品编码的订单补充商品名称时(left join),会产生大量重复订单,导致分析无效。
因此,今天来分享如何删除重复值。逻辑本质是把多个字段形成唯一值,再对唯一值进行编码,最后剔除其中的不需要的编码即可。
按知识卡片内容举一反三:如果表格中有日期,需要保留重复值中的最早数据,如何做?可以用窗口函数给按日期排序,也可以用关联子查询保留最小日期的记录。
如果要从表中剔除,delete from 即可。如果你对如何进行复杂的删除操作不熟悉,欢迎留言,我来做个知识卡片。