大数据技术
get it now
有志者事竟成
展开
-
druid查询源码追踪
待整理和完善。。。org.apache.druid.cli.Main --> CliBroker getModules()–> BrokerQueryResource.getQueryTargets()–> 1.List ServerViewUtil.getTargetLocations(BrokerServerView,datasource,interval,…) 获取segmentLocation, 2.ResourceIOReaderWriter.ok()读取segment原创 2020-12-09 16:45:11 · 510 阅读 · 0 评论 -
druid kafka摄取任务预聚合逻辑源码追踪
1.梳理druid预聚合逻辑摄取预聚合主逻辑:KafkaRecordSupplier.poll() --> IncrementalPublishingKafkaIndexTaskRunner.getRecords() --> SeekableStreamIndexTaskRunner.getRecords()--> StreamAppenderatorDriver.add(record) --> BaseAppenderatorDriver.append() --> ..原创 2020-12-09 16:40:06 · 501 阅读 · 0 评论 -
hadoop3.1.3集群搭建(ha+yarn)
当前环境:centos6.5,jdk8准备工作:1.服务器之间免密登录$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys$ chmod 0600 ~/.ssh/authorized_keys2.服务器之间时间同步3.安装zook...原创 2020-02-15 19:05:07 · 1726 阅读 · 0 评论 -
大数据之HDFS读写流程(文件上传与下载)
今天来谈谈hdfs的读写流程:HDFS上传文件步骤(写流程)流程:1. 调用客户端的对象DistributedFileSystem的create方法;2. DistributedFileSystem会发起对namenode的一个RPC连接,请求创建一个文件,不包含关于block块的请求。namenode会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限。如果...原创 2019-04-11 20:19:55 · 1702 阅读 · 1 评论 -
大数据之mapreduce作业在Yarn上提交流程
提交作业流程图:各自任务:1、客户端,提交MapReduce作业2、YARN的资源管理器(Resource Manager),协调集群中计算资源的分配3、YARN的节点管理器(Node Manager),启动并监控集群中的计算容器4、MapReduce的Application Master,协调MapReduce作业中任务的运行。Application Master和Map...原创 2019-04-17 22:36:04 · 1743 阅读 · 0 评论