weixin_42450619-CSDN博客

原创 Flink SQL 任务消费Kafka写hudi的性能调优总结

以上修改后，我们还把checkpoint的间隔时长从10分钟调整为5分钟了，因为现在每分钟从Kafka中消费的数据更多了，如果继续是10分钟的checkpoint间隔时长，则每次做checkpoint时需要写入到HDFS的数据量也会更大，做checkpoint花费的时间也会更久，任务背压的时间也就更长，任务反而不稳定。为了进一步验证我们的想法，我们创建了一个测试任务，消费我们的Kafka，消费的数据直接写入到blackhole连接器中，这样就可以测出Kafka的读取性能而不受其他算子或者网络的影响。

2023-12-06 15:26:35 2026 1

原创 sparksql实现repartition算子效果

sparksql实现repartition算子效果

2023-05-09 09:56:07 478

原创 if esle优化之道

枚举里面的实现类，重写方法，一个枚举就可以搞定。使用方式if else

2022-07-08 09:44:52 215

原创 Hive 插入动态分区表调优

使用动态分区时首先不要忘记的一些配置：是否开启动态分区 hive.exec.dynamic.partition动态分区是否使用严格模式 hive.exec.dynamic.partition.modeMR总共可创建最大分区数 hive.exec.max.dynamic.partitions （默认1000）以及当前节点可创建的最大分区数 hive.exec.max.dynamic.partitions.pernode （默认100）我这里分区表的存储格式是Parquet，insert select方式动

2022-06-23 17:07:34 828

原创 Flink异步I/O 访问外部数据

flink异步访问数据库

2022-06-14 17:08:58 457

翻译 flinksql 解析kafka复杂嵌套json

flinksql 解析kafka复杂嵌套json解析复杂json解析复杂jsonJSON数据{ "afterColumns":{ "created":"1589186680", "extra":{ "canGiving":false }, "parameter":[ 1, 2, 3, 4 ]

2021-04-28 16:24:26 5823 4

原创 linux跨集群复制文件

sshpass-Linux命令之非交互SSH密码验证ssh登陆不能在命令行中指定密码。sshpass的出现，解决了这一问题。sshpass用于非交互SSH的密码验证，一般用在sh脚本中，无须再次输入密码。它允许你用 -p 参数指定明文密码，然后直接登录远程服务器，它支持密码从命令行、文件、环境变量中读取。安装步骤如下：1. 下载sshpass下载地址：http://sourceforge.net/projects/sshpass/ 下载为一个 tar.gz的压缩包。2.把tar.gz的压缩包上

2020-06-24 16:50:54 759

原创 Hbase 2.1 Java API获取region详细信息

背景最近想开发一个hbase的region合并和切割的小功能，百度了很久都没有java api获取region storeFileSize大小的案例，只能自己搞了。网上看到了一个帖子写hbase table region 按条件自动批量合并的https://blog.csdn.net/microGP/article/details/89476951不过他的region大小从hdfs获取的，...

2020-04-07 16:46:24 2081 1

翻译自动处理spark数据倾斜

1 解决数据倾斜典型方案《Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势》一文讲述了数据倾斜的危害，产生原因，以及典型解决方法保证文件可 Split 从而避免读 HDFS 时数据倾斜保证 Kafka 各 Partition 数据均衡从而避免读 Kafka 引起的数据倾斜调整并行度或自定义 Partitioner 从而分散分配给同一 Task 的...

2020-03-28 14:57:19 569

原创动态调整spark sql执行计划

1 固定执行计划的不足在不开启 Adaptive Execution 之前，执行计划一旦确定，即使发现后续执行计划可以优化，也不可更改。如下图所示，SortMergJoin 的 Shuffle Write 结束后，发现 Join 一方的 Shuffle 输出只有 46.9KB，仍然继续执行 SortMergeJoin此时完全可将 SortMergeJoin 变更为 BroadcastJoin...

2020-03-28 14:49:59 979

原创动态设置 Shuffle Partition

1.1 Spark Shuffle 原理Spark Shuffle 一般用于将上游 Stage 中的数据按 Key 分区，保证来自不同 Mapper （表示上游 Stage 的 Task）的相同的 Key 进入相同的 Reducer （表示下游 Stage 的 Task）。一般用于 group by 或者 Join 操作。如上图所示，该 Shuffle 总共有 2 个 Mapper 与 5 ...

2020-03-28 14:43:18 1154

翻译用户留存模型的一种设计方法

1、抛出问题用户留存是用户分析中最常用到的指标之一。我们常常接到这样的需求：~我们要看1天、2天、3天、4天 … 7天的留存~~我们要看1天、2天、3天、4天 … 28天的留存~还有一些不按套路出牌的：我们要看第33天的留存我们要看第56天的留存…让你在代码里写连着7天的留存，就已经写到手抽筋了，恨不得写个代码生成器来生成代码。后面再来个连着28天的留存… 本来以为这就是终结了...

2020-03-27 15:48:04 1465

翻译基于 Canal 和 Kafka 实现 MySQL 的 Binlog 近实时同步

前提近段时间，业务系统架构基本完备，数据层面的建设比较薄弱，因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据（包括保存、更新或者软删除）到一个另一个数据源，持久化之前需要清洗数据并且构建一个相对合理的便于后续业务数据统计、标签系统构建等扩展功能的数据模型。基于当前团队的资源和能力，优先调研了Alibaba开源中间件Canal的使用。这篇文...

2020-03-27 14:54:11 219

weixin_42450619的博客