自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员小陶的大数据分享

技术 | 认知 | 思维

  • 博客(313)
  • 资源 (1)
  • 收藏
  • 关注

原创 海豚调度监控:使用图关系网络解决核心链路告警,减轻任务运维负担!

DolphinScheduler 在使用过程中,肯定会有任务出现失败的情况,那么问题来了:调度任务的告警是需要人为配置的,在生产环境中,面对海量的任务,如何找到重要的任务,并且在失败的时候,第一时间告警呢?

2024-06-20 17:42:17 901

原创 2024-06月 | 维信金科 | 风控数据岗位推荐,高收入岗位来袭!

工作机会推荐,内推!

2024-06-20 17:23:55 851

原创 2024-06月 | 维信金科 | 信贷行业数据岗位推荐,一大波岗位来袭!

工作机会推荐!

2024-06-20 17:21:44 520

原创 海豚调度异常处理: 使用 arthas 在内存中删除启动失败的工作流

大家好,我是小陶,DolphinScheduler 运行过程中会出现一些不可控的异常,可以使用 Arthas 轻松处理 JVM 中的对象,不需要重启服务。

2024-06-14 15:35:03 763

原创 海豚调度清理:使用 API 轻松清理历史工作流实例以及日志文件

DolphinScheduler 运行一段时间之后,会积累大量的历史运行记录,这些记录主要包括:工作流实例记录(MySQL)、任务实例记录(MySQL)、任务日志(本地磁盘),其中 MySQL 的记录越来越多,会影响页面分页查询的速度,进而影响用户使用体验和 MySQL 服务。所以,需要清理以上历史记录,保证页面影响速度和 MySQL 服务。本文的内容也比较简单,先是说明 API 的逻辑、存在的bug和修复方法,最后再介绍如何使用一个 Python 脚本来调用 API 删除历史实例。

2024-06-12 15:34:31 1348

原创 datax同步数据翻倍,.hive-staging 导致的问题分析

同事反馈 Datax 从 Hive 表同步数据到 Mysql 数据翻倍了。通过查看 Datax 任务日志发现,翻倍的原因是多读取了 .hive-staging_xx 开头的文件。接下里就是有关 .hive-staging 的分析。

2023-09-22 15:44:23 546

原创 海豚调度 DolphinScheduler(2.x和3.x版本) 本地环境搭建,方便本地调式代码

DolphinScheduler 的开源版本有不少的 BUG,所以在公司生产使用的话,需要做二次迭代优化,二开的过程,本地调试是不可以或缺的。今天记录一下本地开发环境搭建的过程,适用于 2.x 和 3.x 版本,这两个大版本区别不大,下面会进行说明。

2023-06-30 18:20:22 5509

原创 clickhouse 获取几天前的日期

ClickHouse 版本: 20.7.2.30获取 N 天前获取当前时间的N天前select subtractDays(now(),n)获取指定日期的N天前select subtractDays(toDateTime('2020-11-29 09:15:00'),n)

2021-11-19 11:56:47 5951

原创 大数据技术周报第 009 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。这是第 9 期分享,记录过去一周关于大数据的见闻,保证信息的质量和溯源。文章目录技术一瞥文章资源订阅技术一瞥1.Kafka 最近发布3.0官网Blog:https://blogs.apache.org/kafka/I’m pleased to announce the release of Apache Kafka 3.0 on behalf of the Apache Kafka® community. Apache Kafka

2021-09-27 14:14:08 385

原创 大数据每周分享第 008 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报008.png](https://img-blog.csdnimg.cn/img_convert/7603c51d5ff0df324823516ea187b4bb.png#clientId=ua66e4b71-bc36-4&from=ui&id=u7b90c074&margin=[object Object]&name=大数据技术周报008.png&originHeight=797&o

2021-09-18 18:04:21 308

原创 大数据技术周报第 007 期

这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报007.png](https://img-blog.csdnimg.cn/img_convert/810685146b05b4b46406f36bdcfc2333.png#clientId=uaa781e38-bed2-4&from=ui&id=u15e267f1&margin=[object Object]&name=大数据技术周报007.png&originHeight=797&or

2021-09-18 18:04:03 585

原创 大数据技术周报第 006 期

这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报006.png](https://img-blog.csdnimg.cn/img_convert/7a907cb35daa0f72df67eb07400e17e4.png#clientId=ued222bfa-165a-4&from=ui&id=uf68efd22&margin=[object Object]&name=大数据技术周报006.png&originHeight=797&or

2021-09-18 18:02:38 314

原创 大数据技术周报第 005 期

这里记录过去一周,大数据相关值得分享的东西,每周发布。![大数据技术周报005.png](https://img-blog.csdnimg.cn/img_convert/3c4ae337c5346710a3b7ea3178d7a9c8.png#clientId=u7d0b9d33-c794-4&from=ui&id=u77111841&margin=[object Object]&name=大数据技术周报005.png&originHeight=797&or

2021-09-18 18:02:19 247

原创 大数据技术周报第 004 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报004.png](https://img-blog.csdnimg.cn/img_convert/2d3b6b0083c6ee1df4a0585b0cbddbff.png#clientId=u32c52070-0677-4&from=ui&id=u7f5e5d21&margin=[object Object]&name=大数据技术周报004.png&originHeight=797&o

2021-09-18 18:00:41 245

原创 大数据技术周报第 003 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报003.png](https://img-blog.csdnimg.cn/img_convert/9ef503957983ff8e385f23e27754c98f.png#clientId=u0c6597f6-6c1c-4&from=ui&id=u9090de37&margin=[object Object]&name=大数据技术周报003.png&originHeight=797&o

2021-09-18 18:00:20 228

原创 大数据技术周报第 002 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报002.png](https://img-blog.csdnimg.cn/img_convert/c91b8b61eb37bc81551852450222cfde.png#clientId=uddc054e5-e75b-4&from=ui&id=ue16a1526&margin=[object Object]&name=大数据技术周报002.png&originHeight=797&o

2021-09-18 17:57:19 381

原创 大数据技术周报第 001 期

这里记录过去一周,大数据相关值得分享的东西,每周日发布。![大数据技术周报001.png](https://img-blog.csdnimg.cn/img_convert/ede42c9f6f21c913beab96285740cc67.png#clientId=u5db08379-ecd8-4&from=ui&id=u190e76c9&margin=[object Object]&name=大数据技术周报001.png&originHeight=797&o

2021-09-18 17:56:53 699

原创 万字长文带你从零开始认识机器学习

版权说明:本文系转载。本文中的所有文字,图片,代码的版权都是属于作者和博客园共同所有。在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一:图1 机器学习界的执牛耳者与互联网界的大鳄的联姻这幅图上上的三人是.

2021-09-02 10:18:07 499

原创 给人工智能新手,两份不同阶段的资料

这篇文章,给大家推荐两个不错的网站。即使现在用不到,可以先收藏了。01 偏理论访问:www.coursera.org 免费AI 非技术通俗讲解 等级:初级https://www.coursera.org/learn/ai-for-everyone/机器学习理论基础https://www.coursera.org/learn/machine-learning神经网络与深度学习https://www.coursera.org/learn/neural-networks-deep-learnin.

2021-09-02 10:05:10 122

原创 大数据开发工程师到底是干嘛的?日常做什么呢?

最近后台收到很多私信,内容大都差不多,总结下来就是:目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的?需要提前准备些什么?大数据分了哪些岗位?笔者已从事数据开发工作三年有余,结合自己的工作经历和几位同行的经验来聊聊这几个问题。希望可以帮到你。什么是大数据?大数据的几个明显的特点:海量的数据数据多样性数据增速快以上特点带来了数据的存储和计算问题,大数据技术的出现就是为了解决上述问题的。接着往下看,下图 1-1 展示了数据端到端的流程,从左到右依次为:数据产生、数

2021-07-05 22:49:58 10440 8

原创 那些年我们踩过的一些坑之 ClickHouse

...

2021-01-16 14:12:00 3535

原创 官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行!

‍‍ 翻译 | 付典 Review |徐榜江、朱翥 Apache Flink 社区很荣幸地...

2020-12-29 21:30:00 269

原创 ​实战:Flink 1.12 维表 Join Hive 最新分区功能体验

我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求,其中 Hive 表是分区表,业务上需要关联上 Hive 最新分区的数据...

2020-12-29 21:30:00 384

原创 年度总结 | Flink 年度最佳学习路线总结

2020年,最后几天了,不管这一年过的怎么样,也都过来了,来年还是得继续努力呀。大数据学习指南给大家整理了一份年度总结系列文章,今天分享的是 Flink 学习路线。以下资料来源都有标注,基本都属于一手资料,在信息碎片横行的时代,坚持独立思考、系统学习。预祝大家学习愉快。最近更新2020年12月13日-15日,Flink Forward Asia 2020 在线峰会圆满落幕。为期三天的会议中,Flink 社区以超多干货,丰富内容打造了一场大数据与 Apache Flink 的全技术盛宴。了解 Flink

2020-12-29 21:23:29 439

原创 年度总结 | 2020 Flink 学习路线总结

2020年,最后几天了,不管这一年过的怎么样,也都过来了,来年还是得继续努力呀。大数据学习指南给大家整理了一份年度总结系列文章,今天分享的是 Flink 学习路...

2020-12-27 11:21:00 305

原创 一文搞定 Hive 表分隔符

Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。Hive 的默认列分隔符 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,

2020-11-23 15:41:57 4061

原创 2020年 Google 开发者大会可以预约了

Google 开发者大会 (Google Developer Summit) 是谷歌面向开发者展示最新产品和平台的年度盛会。 2020 G...

2020-11-14 13:05:00 290 1

原创 网易云音乐基于 Flink + Kafka 的实时数仓建设实践

背景 Flink + Kaf...

2020-10-30 11:14:00 252

原创 Flink JDBC Connector:Flink 与数据库集成最佳实践

整理:陈政羽(Flink 社区志愿者) ...

2020-10-30 11:14:00 7092

原创 码住!Flink Contributor 速成指南

...

2020-09-29 08:50:00 243

原创 Flink SQL 1.11 新功能与最佳实践

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-09 08:31:00 648

原创 如何基于 Flink 生成在线机器学习的样本?

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-09 08:31:00 215

原创 Flink SQL CDC 上线!我们总结了 13 条生产实践经验

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-09 08:31:00 970 2

原创 Zeppelin SDK :Flink 平台建设的基石

#2020云栖大会#阿里云海量offer来啦!投简历、赢阿里云限量礼品及阿里云ACA认证免费考试资格!>>> ...

2020-09-03 12:40:00 223

原创 数据处理能力相差 2.4 倍?Flink 使用 RocksDB 和 Gemini 的性能对比实验

行业解决方案、产品招募中!想赚钱就来传!>>> ...

2020-08-05 20:24:00 457 1

原创 单日课程超10万节!VIPKID 如何通过实时计算提升上课体验?

行业解决方案、产品招募中!想赚钱就来传!>>> ...

2020-08-03 22:32:00 236

原创 Flink x Zeppelin ,Hive Streaming 实战解析

行业解决方案、产品招募中!想赚钱就来传!>>> ...

2020-08-03 22:32:00 281

原创 数仓系列 | 深入解读 Flink 资源管理机制

精选30+云产品,助力企业轻松上云!>>> 整...

2020-07-26 16:09:00 158

原创 Hive 老当益庄 | 深度解读 Flink 1.11:流批一体 Hive 数仓

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-25 19:25:00 415

原创 数仓大法好!跨境电商 Shopee 的实时数仓之路

精选30+云产品,助力企业轻松上云!>>> ...

2020-07-24 06:52:00 620 1

hive 优化思维导图

hive 优化在面试以及工作中经常使用,我整理了一份思维导图供大家学习。

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除