weixin_42450619
码龄7年
关注
提问 私信
  • 博客:14,685
    14,685
    总访问量
  • 9
    原创
  • 1,067,358
    排名
  • 16
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-06-13
博客简介:

weixin_42450619的博客

查看详细资料
个人成就
  • 获得26次点赞
  • 内容获得6次评论
  • 获得60次收藏
创作历程
  • 2篇
    2023年
  • 3篇
    2022年
  • 1篇
    2021年
  • 7篇
    2020年
成就勋章
TA的专栏
  • spark
    1篇
  • java
    1篇
  • hive调优
    1篇
  • flinksql
    2篇
  • hbase 监控
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink SQL 任务消费Kafka写hudi的性能调优总结

以上修改后,我们还把checkpoint的间隔时长从10分钟调整为5分钟了,因为现在每分钟从Kafka中消费的数据更多了,如果继续是10分钟的checkpoint间隔时长,则每次做checkpoint时需要写入到HDFS的数据量也会更大,做checkpoint花费的时间也会更久,任务背压的时间也就更长,任务反而不稳定。为了进一步验证我们的想法,我们创建了一个测试任务,消费我们的Kafka,消费的数据直接写入到blackhole连接器中,这样就可以测出Kafka的读取性能而不受其他算子或者网络的影响。
原创
发布博客 2023.12.06 ·
1619 阅读 ·
17 点赞 ·
1 评论 ·
20 收藏

sparksql实现repartition算子效果

sparksql实现repartition算子效果
原创
发布博客 2023.05.09 ·
308 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

if esle优化之道

枚举里面的实现类,重写方法,一个枚举就可以搞定。使用方式if else
原创
发布博客 2022.07.08 ·
172 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 插入动态分区表调优

使用动态分区时首先不要忘记的一些配置:是否开启动态分区 hive.exec.dynamic.partition动态分区是否使用严格模式 hive.exec.dynamic.partition.modeMR总共可创建最大分区数 hive.exec.max.dynamic.partitions (默认1000)以及当前节点可创建的最大分区数 hive.exec.max.dynamic.partitions.pernode (默认100)我这里分区表的存储格式是Parquet,insert select方式动
原创
发布博客 2022.06.23 ·
689 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Flink异步I/O 访问外部数据

flink异步访问数据库
原创
发布博客 2022.06.14 ·
372 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

flinksql 解析kafka复杂嵌套json

flinksql 解析kafka复杂嵌套json解析复杂json解析复杂jsonJSON数据{ "afterColumns":{ "created":"1589186680", "extra":{ "canGiving":false }, "parameter":[ 1, 2, 3, 4 ]
翻译
发布博客 2021.04.28 ·
5218 阅读 ·
7 点赞 ·
4 评论 ·
21 收藏

apache-maven-3.5.2

发布资源 2021.02.05 ·
zip

MySQL主从安装部署.docx

发布资源 2021.02.05 ·
docx

linux跨集群复制文件

sshpass-Linux命令之非交互SSH密码验证ssh登陆不能在命令行中指定密码。sshpass的出现,解决了这一问题。sshpass用于非交互SSH的密码验证,一般用在sh脚本中,无须再次输入密码。它允许你用 -p 参数指定明文密码,然后直接登录远程服务器,它支持密码从命令行、文件、环境变量中读取。安装步骤如下:1. 下载sshpass下载地址:http://sourceforge.net/projects/sshpass/ 下载为一个 tar.gz的压缩包。2.把tar.gz的压缩包 上
原创
发布博客 2020.06.24 ·
649 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hbase 2.1 Java API获取region详细信息

背景最近想开发一个hbase的region合并和切割的小功能,百度了很久都没有java api获取region storeFileSize大小的案例,只能自己搞了。网上看到了一个帖子写hbase table region 按条件自动批量合并的https://blog.csdn.net/microGP/article/details/89476951不过他的region大小从hdfs获取的,...
原创
发布博客 2020.04.07 ·
1958 阅读 ·
2 点赞 ·
1 评论 ·
6 收藏

自动处理spark数据倾斜

1 解决数据倾斜典型方案《Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势》一文讲述了数据倾斜的危害,产生原因,以及典型解决方法保证文件可 Split 从而避免读 HDFS 时数据倾斜保证 Kafka 各 Partition 数据均衡从而避免读 Kafka 引起的数据倾斜调整并行度或自定义 Partitioner 从而分散分配给同一 Task 的...
翻译
发布博客 2020.03.28 ·
454 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

动态调整spark sql执行计划

1 固定执行计划的不足在不开启 Adaptive Execution 之前,执行计划一旦确定,即使发现后续执行计划可以优化,也不可更改。如下图所示,SortMergJoin 的 Shuffle Write 结束后,发现 Join 一方的 Shuffle 输出只有 46.9KB,仍然继续执行 SortMergeJoin此时完全可将 SortMergeJoin 变更为 BroadcastJoin...
原创
发布博客 2020.03.28 ·
811 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

动态设置 Shuffle Partition

1.1 Spark Shuffle 原理Spark Shuffle 一般用于将上游 Stage 中的数据按 Key 分区,保证来自不同 Mapper (表示上游 Stage 的 Task)的相同的 Key 进入相同的 Reducer (表示下游 Stage 的 Task)。一般用于 group by 或者 Join 操作。如上图所示,该 Shuffle 总共有 2 个 Mapper 与 5 ...
原创
发布博客 2020.03.28 ·
971 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

用户留存模型的一种设计方法

1、抛出问题用户留存是用户分析中最常用到的指标之一。我们常常接到这样的需求:~我们要看1天、2天、3天、4天 … 7天的留存~~我们要看1天、2天、3天、4天 … 28天的留存~还有一些不按套路出牌的:我们要看第33天的留存我们要看第56天的留存…让你在代码里写连着7天的留存,就已经写到手抽筋了,恨不得写个代码生成器来生成代码。后面再来个连着28天的留存… 本来以为这就是终结了...
翻译
发布博客 2020.03.27 ·
1274 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

基于 Canal 和 Kafka 实现 MySQL 的 Binlog 近实时同步

前提近段时间,业务系统架构基本完备,数据层面的建设比较薄弱,因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据(包括保存、更新或者软删除)到一个另一个数据源,持久化之前需要清洗数据并且构建一个相对合理的便于后续业务数据统计、标签系统构建等扩展功能的数据模型。基于当前团队的资源和能力,优先调研了Alibaba开源中间件Canal的使用。这篇文...
翻译
发布博客 2020.03.27 ·
170 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

IDEA和eclipse常用快捷键对照表

发布资源 2018.07.07 ·
xls
加载更多