- 需求
拉取过来的数据(比如浦发,兴业,农行等),格式如:
兴业:
手机号,姓名,开通信用卡功能(10万条)
浦发:
手机号,姓名,开通信用卡功能(10万条)
......
- 将上面的数据合并,因为每个身份证号有可能在多家银行开有信用卡,需要将20万条数据,假如这时只有18万不重复身份证号的数据。
2、假设昨天已插入农业银行的10万条数据,并且分发出去这些不重复的数据,然后今天再插入10万条农业银行的数据(有可能跟昨天插入的数据有重复的),需要将今天新增的数据筛选出来;
- 数据效果展示
需求一:去重
原始数据(黄色底为重复身份证号的数据):
工商银行(共20条)
农业银行(共20条):
去重后的数据:
此时因为有五个身份证号在两个银行开通了信用卡业务,故该五个身份证在两个表中都存在,去重后剩下35条数据,并记录开通的银行业务名称。
需求二:筛选出新增进来的数据
工商银行第二批数据(黄色底为已插入的重复数据—包括工商和农业)
新数据插入后
基础表:
备注:对于身份证号、手机号和姓名等敏感数据均从网络随机生成,如有雷同纯属巧合。