自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 【Clickhouse和Byconity对比】使用角度评测Clickhouse和Byconity

ByConity对Clickhouse整体进行了封装,实现了远程挂载HDFS,实现了类似Doris开窗能力的开窗函数,实现了简易建表易于维护。总体上还不错,一些Bug的解决观望后续社区的进展。

2024-08-15 14:31:54 347

原创 【Flink任务改造】结合OLAP之Clickhosue对Flink任务的改造经历

在实际应用中,部分业务(尤其是需求多变的场景)更适合将更多的数据处理逻辑移至下游的 ClickHouse SQL 层,而不是在 Flink 中进行复杂的处理,具有显著的优势。

2024-07-27 16:41:03 455

原创 【Hadoop之HDFS替换方案】【Haoop远程挂载Cubefs】Cubefs对接Hadoop生态

Hadoop远程挂载可弹性扩展的分布式存储

2024-07-27 15:30:28 368

原创 【数仓宽表设计】我对宽表设计的思考

宽表设计是数仓开发的灵魂,具体怎么使用要根据业务制定和取舍,扬长避短发挥业务价值。

2024-07-21 23:25:58 369

原创 【数仓分层构建】新能源自动驾驶/车联网行业的数仓分层

这里是常规的数仓分层,部分企业会加入DWB层做预聚合,部分电商业务企业会另外加入DWT层做进一步的汇总供ADS层使用。接手一个新业务线应该怎样快速构建业务呢,我这里采用的是总线矩阵,如下图。

2024-07-19 09:35:39 496

原创 【Gaps and Islands】HQL/SparkSql/SQL的Gaps and Islands问题

日常的数仓开发中,我们会遇到各种各样的业务用SQL去解决,有一些问题的复杂SQL处理可以抽象为固定的范式,如果抽取为常用的范式,会大大提高我们的开发效率。

2024-07-17 23:01:01 192

原创 【Hbase】【Spring接口】Hbase接口被疯狂调用问题排查

有一次看到后台日志hbase被疯狂调用,由于我最初设计的Rowkey很好,Hbase没有宕机,但是访问很不合理,如下图。我写的Hbase大数据接口被几个业务方调用,但是我们没有APM系统,没有任何链路追踪,导致问题排查比较缓慢。凌晨我们是没有业务的,业务没有业务方调用,但是部署接口的服务器CPU飙升,持续到早上9点。

2024-07-11 19:42:54 159

原创 Hive之rand()随机种子问题,数据不一致

hive函数造数据

2024-07-11 15:27:16 518

原创 HIVEI运行报找不到 HADOOP_CLASSPATH

经过仔细回忆,发现公司前几天重启服务器,重启服务器环境变量如果不在/etc/profile下是不是自动刷新环境变量的,所以我的export只能临时解决,然后我又source /etc/profile.d/my_env.sh了自己的环境变量就解决了。hive运行报找不到 HADOOP_CLASSPATH,于是我重新export环境变量,但是第二天还是同样报错。

2024-07-04 18:08:00 248

原创 NoClassDefFoundError serde2 AbstractSerDe

hive on spark运行异常。

2024-07-04 18:04:05 131

原创 【自定义Flume拦截器】0点飘移问题java.lang.RuntimeException:For Input String :““

问题出在了 String ts = jsonObject.getString(“ts”);我数据源中的时间字段名字不是ts,而是time,所以改为如下恢复正常。!!!大家一定要注意这个小点,不然拦截器获取不到正确的key放入header。

2024-04-20 17:11:13 276

原创 【Clickhouse之Kafka引擎测试】Clickhouse表发布/生产到Kafka

在实际生产中不建议这么使用,因为kafka如果宕机,期间写入ck的数据都会失败,如果此时业务接口有查询请求ck,那么失败的数据不会被查到,影响实际生产业务。

2024-04-20 16:54:29 375 2

原创 【大数据Aazkaban调度】调度任务怎么编写合理/某时段CPU突然飘升

观测集群在某个时段CPU升到80%(namenode所在的节点,未部署高可用),检查了调度任务发现这个时段对应的调度任务很复杂,一个flow编写了好多表的清洗,因此调度任务编写时不能单纯追求长和完整,要根据CPU压力切分flow。

2024-03-27 18:13:52 112

原创 Rust连接Clickhouse

【代码】Rust连接clickhouse。

2024-03-18 11:48:56 257

原创 【HIVE】Class org.openx.data.jsonserde.JsonSerDe not found

hive jsonserde

2022-10-26 18:14:12 453 1

原创 【Mapreduce租约异常/块异常】Cannot obtain block length for LocatedBlock

Mapreduce 租约异常

2022-10-08 23:25:30 454

原创 Airflow dag迁移

dag迁移后 调度到了设定时间 不会继续执行

2022-06-13 19:30:10 256

原创 Hbase请求延时 Hbase接口服务

Hbase接口服务

2022-06-13 18:49:58 212

原创 【Flink】Flink1.12 - 1.13 高可用遇到的bug

1.application mode 提交:任务id 00000000000000000 id没有hash 后续没办法起两个jobMster2.yarn-session 提交-t yarn-application 不能用 得去掉才可以用目前官方还没解决。

2021-07-14 19:07:41 295 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除