Hadoop
weixin_42305433
这个作者很懒,什么都没留下…
展开
-
转载一篇kafka重复消费相关的文章
背景:项目中kafka集群出现了一个现象,好早之前的消息被重复多次消费,查了一下应该是和这篇文章所说问题对应:https://blog.csdn.net/sunny05296/article/details/97029889 问题一句话总结:kafka的数据存储了7天,但是offset存储了1天,当offset失效后从0开始消费,每次都是从7天前的消息开始消费,所以在7天内可能出现多次重复消费的现象 关于kafka 0.10.0.0 的默认参数 offsets.retention.minutes &转载 2020-11-16 22:12:45 · 111 阅读 · 0 评论 -
HDFS Router based基本概念
HDFS Router based基本概念背景整体架构关于Router关于Quota关于State Store关于安全关于部署关于挂载表如何增加一个挂载表Quotas的使用多个子集群的场景disable掉一个NameServiceRouter的一般刷新方式客户端配置Router的配置描述 背景 近期项目考虑解决HDFS节点的上限问题,HDFS单个的NameNode对存储、计算资源的限制,主要原因在单个NameNode存在瓶颈,所有文件索引信息以及HDFS Client的请求都集中在单个节点的服务,因此需要对原创 2020-08-10 22:56:40 · 2548 阅读 · 0 评论 -
Kafka Leader、Partition、Topic、Consumer关系
先mark一下,回头再补充。原创 2020-01-13 19:21:11 · 559 阅读 · 0 评论 -
indexR 笔记
原创 2020-01-11 19:23:21 · 109 阅读 · 0 评论 -
Hadoop Yarn学习笔记(1)
Yarn的基本角色概念 原生的Hadoop MapReduce过程存在几个问题: 1、JobTracker单节点同时管理资源、任务,负载高,导致集群节点存在上线,计算过程上下文切换成本高 2、资源的slot配置,Map/Reduce的资源配比固定导致资源浪费 3、代码比较负载,资源/任务一起管理 4、集群的可接入性差,因为JobTracker/TaskTracker已经做了MapReduce的定制...原创 2019-05-16 00:40:18 · 177 阅读 · 0 评论 -
Hadoop Yarn学习笔记(2)
Yarn的任务提交流程与状态机 任务提交流程(1) 来自:链接:https://www.jianshu.com/p/254d01eaf884 1、job client向ResourceManager提交执行job申请。 2、ResourceManager接收job请求, 生成job id, 返回job id, staging工作目录等信息给job client。 3、Client把资源jar等拷...转载 2019-05-16 07:57:47 · 190 阅读 · 0 评论 -
记一次YarnClient使用过程中遇到的问题
问题现象: yarnClient通过kerbroes认证,查询nodereport正常,但是当使用getApplications时,查询失败,日志中提示从客户端发送给RM的protobuff格式不对,在RM产生了异常信息。 ...原创 2019-06-27 00:06:35 · 661 阅读 · 2 评论