推广项目难点之数据清洗

1、背景

数据清洗就是将大量数据组装后调用第三方接口,根据返回结果分类存储成功数据和错误数据。平均每天对接的数据总共有3w左右需要清洗,有时候重复清洗所有数据达到100w以上。

2、设计方案

2.1、版本V1.0

2.1.1、待清洗数据存储在表cookie_clean_t(已经按照需求进行过第一步去重),字段state标记了:未清洗,清洗中,清洗成功,清洗失败三种状态;

2.1.2、后台数据清洗项目(xx-cookie-clean)提供了后台分发待清洗数据的接口(设计了同步锁),清洗机器人项目(xx-robot-clean)每次从后台接口获取数据时分发的数据都是未清洗状态,已分发的数据更新状态为清洗中,另外接收清洗结果的接口将更新数据为清洗成功或清洗失败状态;

2.2、版本V2.0

2.2.1、待清洗数据存储在表cookie_clean_t(已经按照需求进行过第一步去重),字段state标记了:未清洗,清洗成功,清洗失败三种状态;

2.2.2、后台数据清洗项目(xx-cookie-clean)提供了后台分发待清洗数据的接口(redis加锁),清洗机器人项目(xx-robot-clean)每次从后台接口获取数据时分发的数据都是未分发并且没有清洗状态的,已分发的数据保存到表cookie_short_run_t,另外接收清洗结果的接口清洗成功的数据存储到临时表cookie_short_succ_t,将清洗失败的数据存储到临时表cookie_short_error_t;

2.2.3、临时表定时维护数据清洗状态;

3、结论

加锁和分临时表的机制降低了接口分发数据查询数据库的频率,极大缓解数据库压力

转载于:https://www.cnblogs.com/xx0829/p/11475820.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值