- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 拉链表通用逻辑
在网上可以找到很多拉链表的文章,都讲述了拉链表是怎么回事儿,但是其实拉链表的逻辑是可以通用的,这个点却很少有人将,那我就为百度搜索贡献一篇文章吧。按照正常的逻辑,数仓的ods层表应该跟源系统保持一致,根据ods表中的create_time和modify_time来获取每日新增或更新的数据,把这部分数据放入一个中间表【dm.dwd_user_his_upsert】中,通过这些有变化的数据即可实现拉链表逻辑。但是因为有的系统建设得很早,所以不是所有的ods表都有create_time和modify_time
2021-07-27 22:45:49 903
原创 spark写HBase的hfile文件,再使用bulkload方式装载时split很慢问题
要想使用spark生成hfile,然后再使用bulkload方式向HBase装载数据,你需要:首先用spark向hdfs写hfile;然后使用java代码调起bulkload程序吧hfile装载到habse数据库中。但是在整个过程中,有以下几个点是需要注意的:...
2021-07-02 20:03:06 1906 5
原创 用SQL的方式实现离线多数据源混合计算和互导!
data-hub是什么?data-hub是一个能接入多种数据源,使用SparkSQL作为通道,最终输出到多数据源的jar包,主要实现:多数据源数据使用SQL的方式进行计算,并将计算结果导入到多种数据源特点:简单:按照下文方法简单调用即可使用,如果你有任务调度平台,使用起来同样简单 强大:目前不仅支持在大数据集群中使用,还是支持本地运行,读取结构化数据时支持自定义换行符;目前支持的数据源:jdbc、hive、HBase、hdfs-file、local-file,输出数据源:jdbc、hive..
2021-07-02 17:37:00 264
Linux上gcc编译器详细
2014-05-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人