- 博客(313)
- 资源 (1)
- 收藏
- 关注

原创 海豚调度监控:使用图关系网络解决核心链路告警,减轻任务运维负担!
DolphinScheduler 在使用过程中,肯定会有任务出现失败的情况,那么问题来了:调度任务的告警是需要人为配置的,在生产环境中,面对海量的任务,如何找到重要的任务,并且在失败的时候,第一时间告警呢?
2024-06-20 17:42:17
1055
原创 海豚调度异常处理: 使用 arthas 在内存中删除启动失败的工作流
大家好,我是小陶,DolphinScheduler 运行过程中会出现一些不可控的异常,可以使用 Arthas 轻松处理 JVM 中的对象,不需要重启服务。
2024-06-14 15:35:03
854
原创 海豚调度清理:使用 API 轻松清理历史工作流实例以及日志文件
DolphinScheduler 运行一段时间之后,会积累大量的历史运行记录,这些记录主要包括:工作流实例记录(MySQL)、任务实例记录(MySQL)、任务日志(本地磁盘),其中 MySQL 的记录越来越多,会影响页面分页查询的速度,进而影响用户使用体验和 MySQL 服务。所以,需要清理以上历史记录,保证页面影响速度和 MySQL 服务。本文的内容也比较简单,先是说明 API 的逻辑、存在的bug和修复方法,最后再介绍如何使用一个 Python 脚本来调用 API 删除历史实例。
2024-06-12 15:34:31
1523
原创 datax同步数据翻倍,.hive-staging 导致的问题分析
同事反馈 Datax 从 Hive 表同步数据到 Mysql 数据翻倍了。通过查看 Datax 任务日志发现,翻倍的原因是多读取了 .hive-staging_xx 开头的文件。接下里就是有关 .hive-staging 的分析。
2023-09-22 15:44:23
613
原创 海豚调度 DolphinScheduler(2.x和3.x版本) 本地环境搭建,方便本地调式代码
DolphinScheduler 的开源版本有不少的 BUG,所以在公司生产使用的话,需要做二次迭代优化,二开的过程,本地调试是不可以或缺的。今天记录一下本地开发环境搭建的过程,适用于 2.x 和 3.x 版本,这两个大版本区别不大,下面会进行说明。
2023-06-30 18:20:22
5902
原创 clickhouse 获取几天前的日期
ClickHouse 版本: 20.7.2.30获取 N 天前获取当前时间的N天前select subtractDays(now(),n)获取指定日期的N天前select subtractDays(toDateTime('2020-11-29 09:15:00'),n)
2021-11-19 11:56:47
6292
原创 大数据技术周报第 009 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。这是第 9 期分享,记录过去一周关于大数据的见闻,保证信息的质量和溯源。文章目录技术一瞥文章资源订阅技术一瞥1.Kafka 最近发布3.0官网Blog:https://blogs.apache.org/kafka/I’m pleased to announce the release of Apache Kafka 3.0 on behalf of the Apache Kafka® community. Apache Kafka
2021-09-27 14:14:08
432
原创 大数据每周分享第 008 期
这里记录过去一周,大数据相关值得分享的东西,每周日发布。、行分隔符(”\n”)以及读取文件数据的方法。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。Hive 的默认列分隔符 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,
2020-11-23 15:41:57
4206
原创 2020年 Google 开发者大会可以预约了
Google 开发者大会 (Google Developer Summit) 是谷歌面向开发者展示最新产品和平台的年度盛会。 2020 G...
2020-11-14 13:05:00
307
1
原创 Flink SQL 1.11 新功能与最佳实践
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-09 08:31:00
664
原创 如何基于 Flink 生成在线机器学习的样本?
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-09 08:31:00
227
原创 Flink SQL CDC 上线!我们总结了 13 条生产实践经验
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-09 08:31:00
1047
2
原创 Zeppelin SDK :Flink 平台建设的基石
#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...
2020-09-03 12:40:00
232
原创 数据处理能力相差 2.4 倍?Flink 使用 RocksDB 和 Gemini 的性能对比实验
行业解决方案、产品招募中!想赚钱就来传!>>> ...
2020-08-05 20:24:00
485
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人