Hadoop
文章平均质量分 92
从1.x开始记录吧
Bug型程序员
这个作者很懒,什么都没留下…
展开
-
(5)Kafka原理和高可用介绍
1.Kafka介绍(1)基本概念 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者的所有动作流数据。 这种动作如: 活动数据:网站用户行为数据,例如PV(页面浏览量),UV(用户访问量) 运营数据: 监控系统性能指标(cpu利用率、负载,内存使用率,磁盘利用率,IO性能) 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决,特性如下: 海量数据不可变 实时处理 对于像Hadoop的一样的日志数据和离线分析系统,...原创 2021-09-12 00:03:08 · 2661 阅读 · 0 评论 -
(4)Yarn架构、资源管理原理和运维技术介绍
(1)大数据和应用场景介绍(2)大数据技术综述总结(3)Hadoop原理与高可用技术原理介绍1.Yarn简介(1)经典Hadoop1.X问题 在Hadoop1.X版本时的资源调度是由一个主节点JobTracker和多个从节点TaskTracker来协同完成,可以看出它是一个主从架构。其中 JobTracker负责资源管理和作业调度 TaskTracker负责汇报本节点的健康状况、资源使用、任务执行情况和执行JobTracker的命令,如启动、停止任务等。 ...原创 2021-08-29 02:20:29 · 2308 阅读 · 1 评论 -
(3)HDFS原理与高可用技术原理介绍
1.HDFS简介 HDFS也是由Doug Cutting基于Google公司03年10月开源的论文GFS做的开源实现。目前为止,HDFS的运用非常广泛,基本上很多大数据平台大部分都会选用HDFS(或者类似HDFS)这样的分布式文件系统、来作为海量数据存储的一个解决方案。最初在设计HDFS时的背景是当时设备的存储和读写性能都很差,并且单一设备运行稳定性低的情况(现在硬件设备优化很好了,目前HDFS已经不是最优方案了),于是HDFS在设计之初就是为了解决大规模、海量数据的存储以及读写,并且尽可能的保...原创 2021-08-21 00:31:54 · 3270 阅读 · 0 评论 -
(2)大数据技术综述总结
1.技术发展综述(1)两大重要事件 大数据技术发展的基础:03和04年Google开源了GFS以及MapReduce这两篇论文。其中,GFS(Google File System)提供了相对于传统存储方案,更加高效、海量的一种数据存储方案分布式文件系统。MapReduce是对于海量数据的高效的分布式计算框架。 大数据落地标志:之后Doug Cutting基于这这两篇文论通过Java做了开源实现,GFS对应于开源的HDFS,MapReduce名称不变,HDFS、MapReduce构...原创 2021-08-19 02:16:16 · 4086 阅读 · 0 评论 -
(1)大数据和应用场景介绍
1.大数据基本特征(1)传统数据与大数据的区别: Volume :从数据量上来说,传统数据规模相对较小,最大维持在GB-TB,而大数据领域中我们需要处理的数据集规模基本都是在TB、乃至PB级别以上; Variety:速度方面,从两个方面来说,第一、从数据的增长速度来说,随着互联网以及物理网的带动,数据量增长非常迅猛;第二、从数据的处理速度上来说,现实场景中我们需要更低延时的高效分析,例如一些秒级别、毫秒级别的实时分析。 Velocity:多样化,在数据类型上,除了传统的结...原创 2021-08-19 01:43:43 · 5377 阅读 · 0 评论 -
Calcite原理和代码讲解(一)
1.Calcite介绍(1)简介 Apache Calcite 是面向 Hadoop 新的查询引擎,它提供了标准的 SQL 语言、多种查询优化和连接各种数据源的能力。 Calcite 的目标是“ one size fits all (一种方案适应所有需求场景)”,希望能为不同计算平台和数据源提供统一的查询引擎,并以类似传统数据库的访问方式(SQL 和高级查询优化)来访问Hadoop 上的数据。 Calcite 之前的名称叫做 optiq ,optiq 起初在 Hive 项目..原创 2021-07-19 01:35:12 · 13720 阅读 · 4 评论 -
维度建模技术(1)核心概念
1.维度建模技术背景 在基于Hadoop的数据仓库(如Hive),或基于传统MPP架构的数据仓库(如Teradata),抑或是基于传统关系型数据库的数据仓库,都会面临一系列问题: 如何设计数据仓库中的数据存放? 如何设计才能使得数据的使用最为简便? 如何设计才能使数据仓库有良好的可扩展性和可维护性? 在数据仓库建模里面中,有两大派: Bill Inmon范式:数据仓库是一个整体的商业智能系统的一部分。一家企业只有一个数据仓库,数据集市的信息来源出自数据...原创 2021-06-27 00:11:44 · 3576 阅读 · 1 评论 -
(二)MapReduce整体流程
1.MapReduce工作流程1.MapReduce核心思想 (图6):采用“分而治之”思想,将大数据集拆分到多个小数据块,再转到多台机器上并行处理。总的来说Map任务独立执行被分割的数据,Reduce将Map任务的中间结果进行并行整合,最后得到整个数据集输出结果。图6 MapReduce整体流程2.MapReduce各阶段流程 (图7):(1)Map预处理:MapReduce框架使用InputFormat模块做Map任务前的预处理(从HDFS中加载数据),比如验证输入格...原创 2021-06-22 00:39:48 · 6768 阅读 · 0 评论 -
HDFS读写数据过程
1.读流程 (图1):1.打开文件:客户端通过通用文件系统抽象类FileSystem.open()打开文件。然后DistributedFileSystem会创建输入流FSDataInputStream。2.获取数据块信息:输入流通过Client.getBlockLocations()远程调用名称节点,并获取文件开始部分数据块的保存位置。同时,名称节点返回拥有该数据块的所有数据节点的地址,同时根据距离客户端远近对数据节点进行排序。然后,DistributedFileSystem将实例化FSDataI.原创 2021-06-22 00:31:47 · 5780 阅读 · 0 评论