![](https://img-blog.csdnimg.cn/20210203162934751.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 87
Hadoop体系学习的记录
黑白键的约定
做一个心无旁骛的搬砖人
展开
-
Hive的SQL执行效率优化
Hive的优化① 工作中针对数据去重,能使用group by 就不使用distinct。使用group by 会使用多个Reduce进行处理。而distinct,所有的数据会在一个reduce中进行处理。②运行设置在每次运行Hive语句时,运行最开始之前都会输出一段话:Number of reduce tasks not specified. Estimated from input data size: 1In order to change the average load for原创 2021-05-27 16:29:03 · 1699 阅读 · 0 评论 -
Hive中内部表、外部表、分区、分桶以及SQL的执行顺序
Hive的数据类型以及四种数据模型Hive的数据类型其实和关系型数据库的类型类似,也是包括几种类型,这里只做简单的介绍数值类型:tinyint (枚举值:0,1)、int、integer、bigint(长整型)浮点类型:float、double、decimal(涉及到金融中常用,保证了精度不丢失)时间类型:timestamp、date(字段命名的时候,如果与关键字重叠,必须使用反键号)字符串类型:string(工作常见)、varchar、char复杂类型:maps、structs、u原创 2021-05-27 15:01:15 · 656 阅读 · 0 评论 -
Hive入门、Hive vs SQL以及Hive的体系结构
HiveHive的本质其实就是MapReduce,是在MapReduce上的更高一层的应用,可以减少MapReduce的编写,之所以要引入Hive是因为有以下几个原因:1)对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一堆MapReduce代码。2)对于统计任务,只能由懂MapReduce的程序员才能确定。3)耗时耗力,更多精力没有释放出来。因此为了解决这些问题,Hive应用而生。...原创 2021-05-26 10:59:27 · 2393 阅读 · 0 评论 -
Hadoop1.0 VS Hadoop 2.0 Yarn以及Yarn的容错能力
Hadoop 1.0 VS Hadoop 2.0在Hadoop1.0中有两个重要的角色JobTracker和TaskTracker,JobTracker主要负责分配工作和资源的调度,相当于一个管理者。而TaskTracker就是具体干事情的角色。而在Hadoop2.0中这两个角色都被新的三个组件所替换:ResourceManager、ApplicationManager、NodeManager。而今天的主角Yarn,其实就相当于一个分布式操作系统,主要是把Hadoop1.0中JobTracker的资原创 2021-05-12 11:56:54 · 303 阅读 · 1 评论 -
WordCount的理解与MapReduce的执行过程
WordCount的入门WordCount是最常见、最基本的一个需求,例如进行词频统计、用户访问记录统计。如果数据量非常小的情况下,使用单机、批处理的方式就可以很快得到结果。但是如果数据量非常大,数据量可能是10G、100G等等。这种情况下使用单机、批处理的方式就非常低效率。所以这个时候就需要借助于分布式的思想进行处理——使用集群进行处理。就拿词频统计来说,处理的过程步骤如下图。Input就是将需要进行处理的数据输入,输入后会经过Spliting操作,将输入的数据进行切分,将众多的数据划分成不同原创 2021-05-10 14:12:09 · 1497 阅读 · 2 评论 -
为什么要用MapReduce以及MapReduce的切片
MapReduce的由来举一个熟悉的例子——WordCount,统计每个单词出现的次数。逻辑也非常简单——将文件中的每一行数据读取出来按照一定规则进行分割,然后把它放到一个HashMap里面,如果存在则value值+1,不存在则put进去并且value为1。实现逻辑很简单,但是数据量一大的话,单机版的实现就不太现实,因为有以下几个问题:1)文件的存储。单机的存储是有限的,而文件的大小可能是无上限的增长,例如日志文件,即使你按照每天输出,但是总的日志文件大小依然在持续增长,大小可能由2T到10T等原创 2021-02-05 15:43:09 · 700 阅读 · 0 评论 -
HDFS2.0的新特性——联邦机制、HA高可用以及高可用的实现方式
联邦当说起联邦,很容易想起例如美国这样的国家,由州组成了一个联合统一的国家,每个州都有各自的宪法和法律,自己行使自己的权利。我们这里的联邦也是类似这种,有了这种机制HDFS集群中可以使用多个独立的NameNode来进行管理以满足HDFS命名空间的水平扩展,这些NameNode分别管理一部分数据,且共享所有的DataNode的存储资源。通俗的讲就是,一个NameNode管理文件系统命名空间的一部分。例如NameNode1管理/usr目录下的所有文件,NameNode2管理/share目录下的所有文件。原创 2021-01-26 11:09:48 · 919 阅读 · 3 评论 -
HDFS的读写流程
概念入门机架分布式的集群通常包括非常多的机器,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架感知所谓机架感知,就是Hadoop用来确定两个结点是否位于同一个机架上。默认情况下,Hadoop的机架感知是没有被启用的。而且,Hadoop的机架感知并非真正智能感知,而是需要人为去告知Hadoop哪台机器属于哪个机架,这样在Hadoop的NameNode启动初始化时,会将这些机器与机架的对应信息保存在内存中,作为写块操作时分配DataNode列表时选择DataNod原创 2021-01-25 14:08:30 · 143 阅读 · 0 评论 -
HDFS中Fsimage的更新过程
在说Fsimage的更新操作之前,先了解一下为什么要进行Fsimage的更新?HDFS是以主从模式运行,其中的主就是我们的要讲的重点——NameNode。NameNode主要是管理文件系统的命名空间,它维护着文件系统树以及整棵树内所有的文件和目录。这些信息以两个文件形式永久的保存在本地磁盘上——命令空间镜像文件Fsimage、编辑日志文件edits。这两个文件是NameNode节点的核心文件。当NameNode启动时会首先读取Fsimage文件,并将目录树信息装载到内存中。而edits存储的是日志信息,原创 2021-01-21 13:42:59 · 786 阅读 · 0 评论 -
初识Hadoop
按照官网的介绍,Hadoop能在计算机集群上使用简单的计算模型来分布式处理大量的数据集。可以看出Hadoop是一个适合大数据的分布式存储和计算的平台。是公认的一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。具有高容错、高可靠性、高扩展性等特点。特别适合写一次,多次读的场景。原创 2020-12-31 10:09:30 · 104 阅读 · 0 评论