自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (2)
  • 收藏
  • 关注

原创 拉链表通用逻辑

在网上可以找到很多拉链表的文章,都讲述了拉链表是怎么回事儿,但是其实拉链表的逻辑是可以通用的,这个点却很少有人将,那我就为百度搜索贡献一篇文章吧。按照正常的逻辑,数仓的ods层表应该跟源系统保持一致,根据ods表中的create_time和modify_time来获取每日新增或更新的数据,把这部分数据放入一个中间表【dm.dwd_user_his_upsert】中,通过这些有变化的数据即可实现拉链表逻辑。但是因为有的系统建设得很早,所以不是所有的ods表都有create_time和modify_time

2021-07-27 22:45:49 835

原创 spark写HBase的hfile文件,再使用bulkload方式装载时split很慢问题

要想使用spark生成hfile,然后再使用bulkload方式向HBase装载数据,你需要:首先用spark向hdfs写hfile;然后使用java代码调起bulkload程序吧hfile装载到habse数据库中。但是在整个过程中,有以下几个点是需要注意的:...

2021-07-02 20:03:06 1720 5

原创 用SQL的方式实现离线多数据源混合计算和互导!

data-hub是什么?data-hub是一个能接入多种数据源,使用SparkSQL作为通道,最终输出到多数据源的jar包,主要实现:多数据源数据使用SQL的方式进行计算,并将计算结果导入到多种数据源特点:简单:按照下文方法简单调用即可使用,如果你有任务调度平台,使用起来同样简单 强大:目前不仅支持在大数据集群中使用,还是支持本地运行,读取结构化数据时支持自定义换行符;目前支持的数据源:jdbc、hive、HBase、hdfs-file、local-file,输出数据源:jdbc、hive..

2021-07-02 17:37:00 231

Linux上gcc编译器详细

从程序员的角度看,只需简单地执行一条GCC命令就可以了,但从编译器的角度来看,却需要完成一系列非常繁杂的工作。首先,GCC需要调用预处理程序 cpp,由它负责展开在源文件中定义的宏,并向其中插入“#include”语句所包含的内容;接着,GCC会调用ccl和as将处理后的源代码编译成目标代码;最后,GCC会调用链接程序ld,把生成的目标代码链接成一个可执行程序。

2014-05-16

Linlux 下的makefile详解

什么是makefile?或许很多Winodws的程序员都不知道这个东西,因为那些Windows的IDE都为你做了这个工作,但我觉得要作一个好的和professional的程序员,makefile还是要懂。这就好像现在有这么多的HTML的编辑器,但如果你想成为一个专业人士,你还是要了解HTML的标识的含义。特别在Unix下的软件编译,你就不能不自己写makefile了,会不会写makefile,从一个侧面说明了一个人是否具备完成大型工程的能力。

2014-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除