码农_程序员
码龄12年
  • 1,336,773
    被访问
  • 95
    原创
  • 2,891
    排名
  • 1,059
    粉丝
关注
提问 私信

个人简介:大数据技术的熟练的运用,有海量数据架构的设计和优化经验

  • 加入CSDN时间: 2010-11-14
博客简介:

在前进的路上

博客描述:
我相信人之所以能,因为相信能
查看详细资料
  • 4
    领奖
    总分 715 当月 28
个人成就
  • 博客专家认证
  • 获得496次点赞
  • 内容获得258次评论
  • 获得534次收藏
创作历程
  • 20篇
    2022年
  • 6篇
    2021年
  • 1篇
    2020年
  • 1篇
    2019年
  • 9篇
    2017年
  • 14篇
    2016年
  • 17篇
    2015年
  • 35篇
    2014年
  • 1篇
    2011年
成就勋章
TA的专栏
  • 大数据技术
    付费
    37篇
  • Flink入门
    18篇
  • 监控
    1篇
  • ClickHouse
    1篇
  • Docker
    1篇
  • J2EE
    1篇
  • Linux
    4篇
  • RabbitMQ
    3篇
  • Maven
    4篇
  • JAVA
    4篇
  • SpringMVC
    10篇
  • Memcached
    5篇
  • Nginx
    2篇
  • Hadoop
    4篇
  • Spark
    3篇
  • Hibernate
    1篇
  • Hbase
    2篇
  • Titan 图形数据库
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink 实战问题(五):The transaction timeout is larger than the maximum value allowed by the broker

设置kafka producer为Semantic.EXACTLY_ONCE会报Unexpected error in InitProducerIdResponse; The transaction timeout is larger than the maximum value allowed by the broker (as configured by max.transaction.timeout.ms)
原创
发布博客 2022.05.12 ·
140 阅读 ·
0 点赞 ·
0 评论

Flink(十二):Task与算子链简介

Flink 将算子的 subtasks 链接成 tasks。每个 task 由一个线程执行。默认情况下,Flink 允许 subtask 共享 slot,即便它们是不同的 task 的 subtask,只要是来自于同一作业即可,将算子链接成 task 是个有用的优化:它减少线程间切换、缓冲的开销,并且减少延迟的同时增加整体吞吐量。
原创
发布博客 2022.04.10 ·
1568 阅读 ·
0 点赞 ·
0 评论

Flink(十一):Parallelism 、Slot 简介

TaskManager(也称为 worker)执行作业流的 task,在 TaskManager 中资源调度的最小单位是 task slot,slot也起到缓存和交换数据流,TaskManager 中 task slot 的数量表示并发处理 task 的数量,Flink 每个task 的数量是由Parallelism设置的,合理设置solt、parallelism的数量对减少延迟、增加整体吞吐量起到关键作用
原创
发布博客 2022.04.08 ·
1473 阅读 ·
0 点赞 ·
0 评论

Flink实战问题(五):TaskManager memory configuration failed: Derived JVM Overhead size

flink 运行任务突然报错,org.apache.flink.configuration.IllegalConfigurationException: TaskManager memory configuration failed: Derived JVM Overhead size (2.500gb (2684354560 bytes)) is not in configured JVM Overhead range [192.000mb (201326592 bytes), 1024.000mb (1
原创
发布博客 2022.03.30 ·
2469 阅读 ·
0 点赞 ·
0 评论

Flink(八):Flink 进程内存、总内存内存简介

Apache Flink 是一个分布式系统,它需要计算资源来执行应用程序。Flink 集成了所有常见的集群资源管理器,例如Hadoop YARN、Apache Mesos和Kubernetes,Apache Flink 也是基于 JVM 的高效处理能力,我们需对各组件内存的了解,更好的使用内存。
原创
发布博客 2022.03.27 ·
2303 阅读 ·
1 点赞 ·
0 评论

Flink(九):JobManager 内存简介

JobManager 具有许多与协调 Flink 应用程序的分布式执行有关的职责:它决定何时调度下一个 task(或一组 task)、对完成的 task 或执行失败做出反应、协调 checkpoint、并且协调从失败中恢复等等。这个进程由三个不同的组件组成ResourceManager、Dispatcher、JobMaster。需对JobManager 内存详细了解,以及内存在整体上以及细粒度上的配置方法二、JobManager 内存模型简介 三、运用
原创
发布博客 2022.03.26 ·
1898 阅读 ·
0 点赞 ·
0 评论

Flink(十):TaskManager 内存简介

Flink TaskManager(也称为 worker)执行作业流的 task,并且缓存和交换数据流,TaskManager 负责执行用户代码。根据实际需求为 TaskManager 配置内存将有助于减少 Flink 的资源占用,增强作业运行的稳定性。
原创
发布博客 2022.03.26 ·
2252 阅读 ·
0 点赞 ·
0 评论

Flink 实战问题(四):ValidationException: Could not find any factory for identifier ‘avro-confluent‘

采用FLink SQL 读取kafka 数据,数据格式是avro('value.format' = 'avro-confluent'),任务启动报错了ValidationException: Could not find any factory for identifier 'avro-confluent'
原创
发布博客 2022.03.23 ·
1067 阅读 ·
1 点赞 ·
0 评论

ClickHouse 实战问题(一):superset 链接clickhouse问题

一、背景clickhouse的需采用superset可视化报表展示, superset配置clickhouse数据源( clickhouse://username:password@ip:8123/database),出现缺失列名问题二、问题(一)问题1: ERROR:Unexpected error occurred解决: 安装clickhouse-driver、clickhouse-sqlalchemy,链接显示成功 三、问题(二)解决问题1,发现cli...
原创
发布博客 2022.03.15 ·
626 阅读 ·
0 点赞 ·
0 评论

Flink(七):Session Windows例子

会话窗口按活动会话对元素进行分组。与滚动窗口和滑动窗口相比,会话窗口不重叠,也没有固定的开始和结束时间。相反,当会话窗口在一段时间内没有接收到元素时,即当出现不活动间隙时,会话窗口将关闭。会话窗口可以配置有会话间隙功能,该功能定义不活动的时间长度。当此期限到期时,当前会话关闭,后续元素被分配到新的会话窗口。实现对应的例子
原创
发布博客 2022.03.12 ·
2055 阅读 ·
0 点赞 ·
0 评论

Flink(六):Tumbling Windows 例子

滚动窗口将每个元素分配给指定窗口大小的窗口。滚动窗口具有固定大小并且不重叠。例如,如果指定一个大小为 5 分钟的滚动窗口,则将评估当前窗口,并每隔五分钟启动一个新窗口,我们实现对应的例子
原创
发布博客 2022.03.12 ·
2768 阅读 ·
1 点赞 ·
0 评论

Prometheus Grafana 安装

Grafana支持Prometheus可视化Prometheus是一个开源监控系统,Prometheus架构图如下:
原创
发布博客 2022.03.12 ·
498 阅读 ·
0 点赞 ·
0 评论

Flink(五):watermark简介

一、简介 我们基于特定时间段进行聚合时,可以引用不同的时间类型,Flink 最新版本提供了Event Time、Processing Time 两种时间类型。数据在Flink 流转时,有时因为网络、资源等,产生一些乱序,获取到时间乱序,为了统计数据更准确,Flink 提供了水位线WaterMark 来跟踪Event Time。二、watermark介绍 数据在Flink流转过程中,产生一些乱序,获取到时间乱序,如图所示: ...
原创
发布博客 2022.01.20 ·
1748 阅读 ·
1 点赞 ·
0 评论

Flink(四) :窗口简介

Flink在流处理过程中,数据不断进来,我们需要在一个时间段内进行维度上对数据进行聚合(窗口),Flink提供了Tumbling Windows(无重叠)、Sliding Windows(有重叠)、Session Windows(无重叠) 三种窗口类型,窗口 驱动主要分为(时间、数量)两种,根据我们实际的业务场景选择不同的窗口类型。
原创
发布博客 2022.01.16 ·
2113 阅读 ·
1 点赞 ·
0 评论

Flink (三):MaxCompute DataSet Connector

一、背景需把MaxCompute的结果采用FLink DataSet 读取数据,并sink到目标表,采用离线批处理读取数据并二、全量同步代码MaxCompute源表和结果表依赖 VVR 4.0.7(对应Flink 1.13) <dependency> <groupId>com.alibaba.ververica</groupId> <artifactId>ververica-connector-odps<
原创
发布博客 2022.01.12 ·
510 阅读 ·
0 点赞 ·
0 评论

Flink (二):MaxCompute DataStream Connector

一、背景需把MaxCompute的结果采用FLink DataStream 读取数据,并sink到目标表,MaxCompute文档那边一直没看到文档,后面查看了阿里的FLink文档,这边整理一下,方便后面操作二、全量同步代码MaxCompute源表和结果表依赖 VVR 4.0.7(对应Flink 1.13) <dependency> <groupId>com.alibaba.ververica</groupId> &...
原创
发布博客 2022.01.10 ·
631 阅读 ·
0 点赞 ·
0 评论

Hbase实战问题(一):清理Hbase的hdfs上archive目录

目录一、背景二、问题三、分析并解决一、背景 服务器的磁盘空间一直报警,查看hdfs已经占用了快满了,这时排查hdfs的各个目录占用空间,发现hbase占用很大# 查看hdfs根目录各文件夹占用空间hdfs dfs -du -h /查看hbase文件下的各个文件夹占用空间hdfs dfs -du -h /hbase二、问题 hdfs dfs -du -h /hbase/archive 占用很大三、分析并解决1、分析 ...
原创
发布博客 2022.01.05 ·
860 阅读 ·
1 点赞 ·
0 评论

spark实战问题(一):is running beyond physical memory limits. Current usage: xx GB of xx GB physical memory

一:背景Spark 任务出现了container内存负载出现OOM二:问题 Application application_xxx_xxxx failed 2 times due to AM Container for appattempt_xxxx_xxxx_xxxx exited with exitCode: -104Failing this attempt.Diagnostics: Container [pid=78835,containerID=container_...
原创
发布博客 2022.01.04 ·
840 阅读 ·
1 点赞 ·
0 评论

Flink(一):简介

一、简介 Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。无边界:有定义流的开始,但没有定义流的结束(我们不用等到所有数据都到达再处理,因为输入是无限的,数据源例如kafka,源源不断的读取数据,并进行不断处理) 有边界:有定义流的开始,也有定义流的结束(有界流可以在摄取所有数据后再进行计算,数据源可以是文件等,可以称为批处理) Apache Flink 是一个分布式系统,它需要计算资源来执行应用程序。Fl...
原创
发布博客 2022.01.03 ·
885 阅读 ·
1 点赞 ·
0 评论

Spark (一):Executor内存

一、背景 Spark是基于内存的分布式计算引擎,我们需对Executor内存管理的详细了解,方便我们遇到OOM解决问题、或者优化时更好调优,,Spark任务启动时有两个进程,分别为Driver、Executor进程,Driver进程(内存默认1G)可能在本地启动,也可能在集群中某个工作节点上启动(根据提交模式client、Cluster等)。Driver启动会申请资源(Executor),根据配置启动对应Executor数量,每个Executor进程都会对应一定数量的内存和CPU COR...
原创
发布博客 2022.01.02 ·
491 阅读 ·
0 点赞 ·
0 评论
加载更多