DW
文章平均质量分 72
lele5000
这个作者很懒,什么都没留下…
展开
-
15亿数据重复性校验程序
有表A 字段信息如下:(id1,id2 ,col1,col2,col3,....colN)id1,id2 为联合主键 。每日数据量在15亿条左右,数据文件大概有350GB,每120MB一个文件。要求在数据入库前做主键校验,保证装载到DW中的数据主键唯一。(注:DW中没有建立主键约束,即使主键不唯一也能装载成功,要求通过装载前的校验来保证主键唯一) 对于这个问题,我最初的想法是并行校原创 2012-03-01 21:34:17 · 2173 阅读 · 0 评论 -
怎样在5秒内从5亿记录的用户积分表实时得到用户的排名
今天在群里有网友提出如下问题: 有表 A 字段信息如下:(手机号码, 用户积分)怎么能够在5秒内返回用户积分在所有用户中的排名 (用户在登陆系统时给出登陆时的排名 ,用户积分可能增加、减少 ,在本次登陆后的积分变化在下次登陆时重新排名,积分相同的用户排名相同,这时并给出同一排名的用户数是多少)目前数据量在5亿左右 ,可以加索引,根据需要建立新表 等 硬件配置中等水平 。请给出具体方案原创 2012-02-29 20:42:54 · 4092 阅读 · 1 评论 -
树型结构的四种建模方法
对于组织架构中的员工层次关系我们应该怎么建模呢? 如下图所示: 此类结构通常有两个主要特点:1、一个孩子有且只有一个父亲2、树的深度不确定 为了解决这种结构,我们一般会建一张下面的表: 方案一(Adjacency List)CREATE TABLE Employees(employee_id int,employee_name varchar原创 2012-04-07 00:47:36 · 13762 阅读 · 11 评论 -
Oracle数据库,怎样更新联接视图?
所谓联接视图,就是有多张基表的视图(From子句中引用了多张表或者视图) 通常情况下,只有满足了一定的条件,我们才能更新联接视图,比如1、视图定义中没有WITH READ ONLY选项 2、一次只能更新一张基表 3、只能更新映射到键值保存表(key-preserved table)的字段 4、满足其它简单视图的更新条件(比如没有聚合等) 什么是键值保存表?如果基原创 2012-05-06 19:43:40 · 2160 阅读 · 0 评论 -
利用TopN算法实现复杂去重实例一则
昨天有网友提了一个问题,需要对如下数据按1小时的间隔进行去重。1 15392 2012-8-31 23:59:002 15392 2012-9-1 0:13:003 15392 2012-9-1 0:16:254 15392 2012-9-1 12:10:255 15392 2012-9-1 12:15:256 15392 201原创 2012-09-20 21:19:16 · 1690 阅读 · 0 评论