青山流水在深谷
码龄13年
关注
提问 私信
  • 博客:384,699
    384,699
    总访问量
  • 250
    原创
  • 2,166,619
    排名
  • 54
    粉丝
  • 0
    铁粉

个人简介:大数据开发

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2012-03-16
博客简介:

dymkkj的专栏

查看详细资料
  • 原力等级
    当前等级
    4
    当前总分
    670
    当月
    0
个人成就
  • 获得68次点赞
  • 内容获得41次评论
  • 获得350次收藏
  • 代码片获得452次分享
创作历程
  • 2篇
    2024年
  • 5篇
    2023年
  • 15篇
    2022年
  • 29篇
    2021年
  • 58篇
    2020年
  • 46篇
    2019年
  • 44篇
    2018年
  • 15篇
    2017年
  • 24篇
    2016年
  • 10篇
    2015年
  • 3篇
    2014年
  • 2篇
    2013年
成就勋章
TA的专栏
  • Flink CDC
    2篇
  • Flink SQL
    4篇
  • Flink
  • Hive
    19篇
  • docker
    1篇
  • Java并发编程
    6篇
  • jvm
    6篇
  • 数据分析
  • Azkaban
    2篇
  • sqoop
    1篇
  • 数据库
    5篇
  • 开发工具
    9篇
  • java
    38篇
  • MB
    1篇
  • MQ
    1篇
  • PHP
    2篇
  • MySQL
    2篇
  • nginx
    1篇
  • MongoDB
    7篇
  • C/C++
    2篇
  • Tomcat
    1篇
  • maven
    15篇
  • vim
    3篇
  • redhat
    5篇
  • scala
    5篇
  • hadoop
    14篇
  • 机器学习
    10篇
  • gradle
  • spark
    34篇
  • github
    3篇
  • kafka
    8篇
  • ZooKeeper
    1篇
  • NoSQL
    2篇
  • shell
    14篇
  • ETL
    1篇
  • python
    4篇
  • ES
    7篇
  • H2O
    2篇
  • pyspark
    6篇
  • Kerberos
    4篇
  • git
    1篇
  • supervisor
    2篇
  • Ubuntu
    3篇
  • Anaconda
    1篇
  • ssh
    1篇
  • redis
    4篇
  • flume
    1篇
  • Elasticsearch
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink SQL 基于Update流出现空值无法过滤问题

通过在DWS宽表创建一层View(如上),在写入DWS宽表的kafka topic之前,现将该字段空值过滤,即可排除空值涉及记录被纳入结果指标计算的范围中。
原创
发布博客 2024.03.27 ·
1047 阅读 ·
9 点赞 ·
0 评论 ·
2 收藏

Flink-CDC 无法增量抽取SQLServer数据

因为没用进行任何修改,故初步判断不是因Flink-CDC的问题导致,进而参照Flink-CDC文档检查以下配置。
原创
发布博客 2024.03.25 ·
658 阅读 ·
7 点赞 ·
2 评论 ·
4 收藏

Flink-SQL join 优化 -- MiniBatch + local-global

Flink-SQL 在多流join时,若数据过多,既会增加内存开销,也会导致container超时,checkpoint失败,因此要尽量减少参与计算数据量,优化聚合算子
原创
发布博客 2023.10.10 ·
1701 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink-CDC 抽取SQLServer问题总结

flink-cdc 抽取数据到kafka 中,使用flink-sql进行开发,相关问题总结
原创
发布博客 2023.09.18 ·
1292 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink-SQL 写入PostgreSQL 问题汇总

​。
原创
发布博客 2023.06.25 ·
2502 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Hive拉链表实现

【代码】Hive拉链表实现。
原创
发布博客 2023.04.28 ·
206 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Flink-SQL 读取hbase 问题总结

flink-sql 将kafka 流表写入hbase。– flink-sql 读取hbase列簇(数据列)– 定义在flink hbase流表。
原创
发布博客 2023.04.26 ·
1008 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Java Runtime无法执行复杂特殊linux shell命令

Java使用Runtime,ProcesBuilder执行shell命令失败问题
原创
发布博客 2022.08.28 ·
1243 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Apache Druid因historical缓存数据无法启动

Apache Druid集群节点historical因缓存数据过多而无法启动
原创
发布博客 2022.08.28 ·
514 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

IDEA将本地启动Springboot服务打印到日志文件中

IDEA将本地启动Springboot服务打印到日志文件中
原创
发布博客 2022.08.28 ·
1502 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive-SQL实现连续多天任务失败的情况

hive查询连续N天字段状态为一个值的数据
原创
发布博客 2022.08.28 ·
649 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive恢复误删数据表

Hive恢复误删数据表
原创
发布博客 2022.06.28 ·
1117 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

mybatis in注解导致数组越界

报错信息报错信息2022-04-24 17:17:29.695 INFO 14125 --- [nio-8080-exec-2] o.s.web.servlet.DispatcherServlet : FrameworkServlet 'dispatcherServlet': initialization completed in 120 ms2022-04-24 17:17:30.395 ERROR 14125 --- [nio-8080-exec-2] o.a.c.c.C.[.
原创
发布博客 2022.04.24 ·
459 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

断电后CDH集群艰难重启之路

1.问题描述运维在凌晨断电重启服务器后,因未忘记将测试环境集群CDH关闭,导致CDH的 server/agent集群,Zookeeper集群,hdfs集群,yarn无法重启,监控指标全部消失,症状如下cdh各个节点无状态agent启动失败zookeeper启动顺序CDH server agentzookeeper集群hdfs集群yarn集群启动CDH集群启动server后发现没问题,但是启动server所在的agent时,老是出错,启动后很快退出,查看日志
原创
发布博客 2022.04.12 ·
4205 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark-2.4.2-bin-2.6.0-cdh5.13.0 源码编译

这里写自定义目录标题下载设置CDH附加仓库地址 和镜像加速编译环境准备[非必要] 根据需求修改scala版本源码编译问题解决scala版本错配参考文档下载spark https://archive.apache.org/dist/spark/spark-2.4.2/maven http://maven.apache.org/download.cgihadoop hadoop-2.6.0-cdh5.13.0设置CDH附加仓库地址 和镜像加速.m2/setting.xml新增仓库地址
原创
发布博客 2022.04.01 ·
192 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark/Spark-JobServer 执行SQL时任务超时

1 问题,SQL执行时超时2022/03/18 17:36:47 HttpRequest GET http://10.1.170.115:8080/v1/statement/20220318_093646_03065_awf2q/2map[errorClass:java.util.concurrent.TimeoutException message:Futures timed out after [600 seconds] stack:java.util.concurrent.TimeoutExcep
原创
发布博客 2022.03.18 ·
2498 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MySQL文本类型Text过小引起的错误

问题描述业务流程前端执行Spark-SQL后,会根据后台Spark- SQL的执行状况,计算出SQL的执行进度,并且将执行进度【百分比】存储到redis,对应的是前端SQL唯一标识,当Spark-SQL执行完毕时,会讲执行进度置为100%,并存储到mysql中,执行完毕分为正常执行完毕,会将返回存储对应的文本字段;执行失败后,会讲失败信息存入同样文本字段。然后删除redis对应的前端SQL唯一标识。问题但是某次Spark-SQL执行完毕后,一直进度为0,并无法继续执行定位查看后台日
原创
发布博客 2022.02.17 ·
1171 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python调用spark服务无法执行SQL文件

这里写自定义目录标题问题描述问题定位1 java服务调用2.python脚本调用问题总结python脚本执行使用模块问题描述问题来源在ETL任务中,需要使用java服务调用python脚本完成mysql数据同步,然后使用spark-sql 执行SQL脚本进行数据加载;另外还有跨天同步时,需要进行数据跨天合并,因此会在python脚本中,再次调用跨天python脚本,使用Spark-SQL完成多天数据加载。但在Spark-SQL执行SQL文件时,发现无法执行相应的SQL文件,并无报错,Spark-
原创
发布博客 2022.02.17 ·
1567 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux 查看某个目录的磁盘空间占用

这里写自定义目录标题查看空间使用查看各个目录使用情况查看当前目录磁盘空间使用情况往下二级级目录使用情况对当前目录的子目录使用空间进行排序按照byte进行排序,其他单位排序不正确截取排序后的前10截取排序后的后10查看空间使用查看各个目录使用情况df -h查看当前目录磁盘空间使用情况包含各个目录,及总使用量 du -h .往下二级级目录使用情况即当前目录的二级子目录使用情况对当前目录的子目录使用空间进行排序按照byte进行排序,其他单位排序不正确du -s * | so
原创
发布博客 2022.01.25 ·
40799 阅读 ·
6 点赞 ·
0 评论 ·
90 收藏

Spark-SQL 多维度聚合优化

1.问题描述问题描述上线一个SQL任务,发现其本身输入表都不打,基本都在百万级别以内,但是能够耗时几个小时,故进行优化2.优化思路2.1 并行度根据运行指标发现,各个stage运行时间,应该是某个stage下的task发生倾斜进一步跟踪stage,发现 task读写数据不是很大,只有几百KB,只要shuffle时才比较大,因此判断并行度无益于作业优化stage 3622.2 shuffle ,聚合shuflle分析各个job的数据,发现也不是很大,无需改变shuffle时
原创
发布博客 2022.01.18 ·
2097 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏
加载更多