fragrans-CSDN博客

原创对比Flink作业提交的几种方式

1. Session Mode1.1 流程（1）session mode会预分配资源，根据指定资源实现创建一个flink集群常驻与Yarn中，并启动一个JobManager和若干TaskManager。（2）这时可以直接提交作业，节省了申请和分配资源的开销1.2 优缺点总结（1）该模式下所有job共享这些固定的资源，而且作业之间不能隔离，会出现资源竞争的情况。（2）当一个TM发生故障，那么所有在这个节点上的job都会失败。（3）当提交的作业越来越多时，JM的负载会越来越高。1

2022-01-02 11:12:07 1377

原创 Flink on Yarn/K8s原理剖析及实践

1. Flink整体架构概览如下为Flink的架构图，用户可以使用4种方式（DataStream、DataSet等）编写flink任务，这些任务逻辑会生成一个JobGraph。JobGraph由source、map()、keyBy()/window()和slink等算子组成。当JobGraph提交给Flink集群后，能够以4种模式运行（Local、Yarn等）2. Flink架构概览之--JobManagerJobManager的架构图如下所示，JobManager的主要功能有：

2020-11-19 18:59:07 828 2

原创 Flink checkpoint原理

1. checkpoint与state的关系state就是checkpoint所做的主要持久化备份的主要数据2. Flink中的statestate主要分为keyed state和operator state2.1 state分类2.1.1 keyed state2.1.2 operator state又称non-keyed state，与一个operator的实例绑定；常见的operator state是source state，例如记录当前source的offset。.

2020-11-06 21:40:07 1266

原创 hive -e 和 -f 通过beeline执行文件中的hive sql语句

1. 在服务器命令行中直接执行sql语句或者sql文件中的内容有时需要在命令行中直接执行hive sql语句，希望不进入hive模式执行，这时候就可以使用hive -e 或者 hive -f 来实现1. hive -e 和 hive -f2. beeline -f ，beeline使用beeline -u "jdbc:hive2://localhost:10000" -n yourname -p passwore -f hivescript.sqlbeeline使用方式请..

2020-11-03 18:25:32 11130

原创 Flink中的时间属性总结

1. 时间属性分类上图为2中时间属性的对比。Processing Time处理起来简单，而处理结果（或者说流处理应用的内部状态）是不确定的。而Event Time在Flink内部做了各种保障，无论重放数据多少次，都能得到一个相对确定的可重现的结果。2. 应用中如何选择时间属性遵循以下原则：当应用遇到某些问题时，要从上一个checkpoint或者savepoint进行重放时，是不是希望结果完全相同。（1）如果希望结果完全相同，则只能用Event Time。（2）如果可以接受不同，则

2020-11-01 18:41:29 771

原创 Kylin集群安装教程

目录1. 准备工作1.1 创建kylin用户1.2 创建kylin二级制文件存放目录1.3 上传kylin文件到服务器2. 开始安装kylin2.1为ukylin用户设置KYLIN_HOME的环境变量2.2 检查环境2.2.1 执行check-env.sh，检查结果如下：2.2.2 接下来我们设置一下这些可选的环境变量3. 启动kylin4. 创建Sample Cube5. 在kylin UI查看刚才创建的 learn_kylin project6..

2020-10-29 19:01:01 1142

原创 Flinkx运行流程图

1. FlinkX简介FlinkX 本质就是根据配置文件，创建一个Flink执行环境StreamExecutionEnvironment。添加source、sink，最后执行env.execute()创建Source:由Reader的readData方法创建InputFormat读取数据并转化为DataStream。创建Sink:由Writer的writeData方法创建的OutputFormat导出到Target 数据源。2. Flinkx Local Mode运行流程图下..

2020-10-17 17:30:39 978

原创在Idea中搭建fabric-sdk-java的开发调试环境

目录# 1.环境准备# 2. 下载fabric-sdk-java源码# 3. 启动fabric测试网络# 4. 在idea中运行End2endIT测试类今天就先写一个标题啦，未完待续......

2020-04-28 21:52:57 1343 1

原创 spring中事务介绍

spring中事务介绍，参考链接如上。

2024-08-19 11:20:01 68

转载数据标注应用场景

常见的数据标注场景百度安全验证。

2024-08-16 13:51:36 27

原创 LangChain资料总结

1、2、

2024-06-27 13:18:37 126

原创 text2sql、nl2sql框架总结

DB-CHATVannaDAIL-SQL。

2024-06-06 12:50:27 396

转载统计学书单

统计学入门（11）: 统计学书籍

2024-05-29 10:31:21 43

转载 zookeeper中的zab协议

参考资料。

2024-05-22 13:59:46 44

原创数据倾斜常见的解决办法

hive数据倾斜常见处理办法

2024-05-07 22:38:26 316

原创 Hive中小文件过多的几种处理方式

hive小文件处理方式

2024-05-07 22:25:11 307

原创 hive自定义udtf函数

2、在initialize中做初始化工作，例如定义输出的数据格式。udtf，一个输入，对应多个输出，实现流程如下。3、在process中实现具体的逻辑。1、继承genericUDF。

2024-05-07 16:37:03 246

原创 hive自定义udf开发流程

hive自定义函数开发流程

2024-05-07 15:43:41 303

转载 yarn中3种调度器的区别

参考资料。

2024-05-03 19:05:22 55

转载 Doris中用户行为分析函数的使用

基于doris搭建用户行为分析函数

2024-04-29 20:49:42 88

原创自定义fink source

自定义fink source和sink

2024-04-25 15:57:00 212 1

原创自定义sink

自定义flink sink

2024-04-25 15:41:54 116 3

转载 flink connector实现原理和自定义connector

flink connector实现原理和自定义实现connector

2024-04-25 14:33:56 166

转载 Doris系列文章

doris内容的系列文章汇总

2024-04-24 17:52:35 27

转载 doris和ck

doris实时数仓、数据导入、存储优化、查询性能

2024-04-24 16:52:49 230

转载 doris布隆过滤器和位图索引

doris bloom 过滤器和位图索引

2024-04-24 13:08:15 62

翻译记录一下学习数据分析的几个公众号

记录学习数据分析的几个公众号

2024-04-18 21:42:12 52

转载 Text2SQL相关内容总结

text2sql和prompt相关学习内容总结

2024-04-14 15:59:29 43

转载用代码实现spring ioc容器的功能

什么是IOC，如何用代码实现Spring IOC - 知乎

2024-04-14 15:33:19 39

转载 Java SPI原理和应用案例

SPI在Java中的实现与应用 | 京东物流技术团队_服务_接口_定义Java SPI概念、实现原理、优缺点、应用场景、使用步骤、实战SPI案例-CSDN博客

2024-04-13 19:49:22 26

转载 flink sql系列文章学习内容总结

https://www.51cto.com/article/713192.html

2024-04-12 10:34:35 26

转载 Apache Calcite系列文章学习汇总

apache calcite系列文章汇总

2024-04-06 19:18:15 51

原创红黑树-B B- B+树总结

红黑树，B- , B+树的理解红黑树，B-树，B+树比较_你觉得大规模数据索引b树快还是红黑树快-CSDN博客b树，b+树，b-树,红黑树详解一锅端

2024-04-05 19:48:15 526

原创分布式锁的几种实现方式

详解 Redis 分布式锁的 5 种方案-腾讯云开发者社区-腾讯云面试官：了解分布式锁？说说ZooKeeper分布式锁的实现原理_为什么说zookeepr是天然的分布式锁-CSDN博客面试官：了解分布式锁？说说ZooKeeper分布式锁的实现原理_为什么说zookeepr是天然的分布式锁-CSDN博客

2024-04-02 21:56:05 374

原创 Flink参数设置和性能优化

4、分桶聚合-适用于去重聚合场景例如count(distinct userId)，将数据的key先打散到多个桶进行聚合，再对分桶中的数据最后聚合。去重计算的分桶聚合（例如groupby分钟去重，如果一个key数据500w，另一个key数据1w）导致数据倾斜，开启分桶聚合、分桶个数。0、状态访问性能差、大状态以及数据倾斜这3种场景提供的微批处理、去重场景BitMap复用、两阶段聚合以及去重计算的分桶聚合的优化原理。3、2阶段聚合（适合计数、累加的聚合场景）：热点数据倾斜，先聚合再传递给下游。

2024-04-02 08:37:57 679