自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Asher_k的博客

原创拉链表通用逻辑

在网上可以找到很多拉链表的文章，都讲述了拉链表是怎么回事儿，但是其实拉链表的逻辑是可以通用的，这个点却很少有人将，那我就为百度搜索贡献一篇文章吧。按照正常的逻辑，数仓的ods层表应该跟源系统保持一致，根据ods表中的create_time和modify_time来获取每日新增或更新的数据，把这部分数据放入一个中间表【dm.dwd_user_his_upsert】中，通过这些有变化的数据即可实现拉链表逻辑。但是因为有的系统建设得很早，所以不是所有的ods表都有create_time和modify_time

2021-07-27 22:45:49 903

原创 spark写HBase的hfile文件，再使用bulkload方式装载时split很慢问题

要想使用spark生成hfile，然后再使用bulkload方式向HBase装载数据，你需要：首先用spark向hdfs写hfile；然后使用java代码调起bulkload程序吧hfile装载到habse数据库中。但是在整个过程中，有以下几个点是需要注意的：...

2021-07-02 20:03:06 1906 5

原创用SQL的方式实现离线多数据源混合计算和互导！

data-hub是什么？data-hub是一个能接入多种数据源，使用SparkSQL作为通道，最终输出到多数据源的jar包，主要实现：多数据源数据使用SQL的方式进行计算，并将计算结果导入到多种数据源特点：简单：按照下文方法简单调用即可使用，如果你有任务调度平台，使用起来同样简单强大：目前不仅支持在大数据集群中使用，还是支持本地运行，读取结构化数据时支持自定义换行符；目前支持的数据源：jdbc、hive、HBase、hdfs-file、local-file，输出数据源：jdbc、hive..

2021-07-02 17:37:00 264

Linux上gcc编译器详细

从程序员的角度看，只需简单地执行一条GCC命令就可以了，但从编译器的角度来看，却需要完成一系列非常繁杂的工作。首先，GCC需要调用预处理程序 cpp，由它负责展开在源文件中定义的宏，并向其中插入“#include”语句所包含的内容；接着，GCC会调用ccl和as将处理后的源代码编译成目标代码；最后，GCC会调用链接程序ld，把生成的目标代码链接成一个可执行程序。

2014-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除