ETL
文章平均质量分 55
lele5000
这个作者很懒,什么都没留下…
展开
-
怎样在5秒内从5亿记录的用户积分表实时得到用户的排名
今天在群里有网友提出如下问题: 有表 A 字段信息如下:(手机号码, 用户积分)怎么能够在5秒内返回用户积分在所有用户中的排名 (用户在登陆系统时给出登陆时的排名 ,用户积分可能增加、减少 ,在本次登陆后的积分变化在下次登陆时重新排名,积分相同的用户排名相同,这时并给出同一排名的用户数是多少)目前数据量在5亿左右 ,可以加索引,根据需要建立新表 等 硬件配置中等水平 。请给出具体方案原创 2012-02-29 20:42:54 · 4051 阅读 · 1 评论 -
15亿数据重复性校验程序
有表A 字段信息如下:(id1,id2 ,col1,col2,col3,....colN)id1,id2 为联合主键 。每日数据量在15亿条左右,数据文件大概有350GB,每120MB一个文件。要求在数据入库前做主键校验,保证装载到DW中的数据主键唯一。(注:DW中没有建立主键约束,即使主键不唯一也能装载成功,要求通过装载前的校验来保证主键唯一) 对于这个问题,我最初的想法是并行校原创 2012-03-01 21:34:17 · 2152 阅读 · 0 评论