![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 85
zkyCoder
这个作者很懒,什么都没留下…
展开
-
数据倾斜原理与解决方法
数据倾斜的概念数据倾斜这四个字经常会在学习MapReduce中遇到。所谓数据分区,就是数据分区分布因为数据本身或者分区方法的原因变得极为不一致,大量的数据被划分到了同一个区。由于Reducer Task每次处理一个区的数据,这导致Reducer Task处理有着大量数据的分区时任务繁重,而其他区分到的任务过于轻松,从而导致整体的任务效率大幅降低。“一个人累死,其他人闲死”。数据倾斜发生原理一般来说,数据倾斜会因为两种情况发生:数据的key非常少,极少数的key中记录了非常多的记录值。这属于相同ke原创 2021-12-14 19:49:29 · 5510 阅读 · 0 评论 -
Hive的分区
Hive有分区表和分桶表这两个概念。分区表基本操作Hive的分区是指将存储的数据进一步细分,相当于一个表的分目录。一个表内有多个分区表。create table table_name (column_name column_type, ...) partitioned by (partition_column partition_type)//例如 按天进行分区create table dept_partition(deptno int, dname string, loc string)p原创 2021-11-10 16:19:38 · 1783 阅读 · 0 评论 -
Hive常用命令
Hive数据类型1. 基本数据类型2. 集合数据类型3. 案例(1) 假设某表有如下一行,我们用 JSON 格式来表示其数据结构。在 Hive 下访问的格式为:{ "name": "songsong", "friends": ["bingbing" , "lili"] , //列表 Array, "children": { //键值 Map, "xiao song": 18 , "xiaoxiao song": 19 } "address": { //结构 Struct, "原创 2021-11-09 18:48:23 · 2136 阅读 · 1 评论 -
Hive概述及其基本原理
Hive是一个基于Hadoop的数据仓库工具, 可以将结构化的数据文件映射为一张表, 并提供类似于SQL的查询功能。Hive本身并不存储和处理数据,更像是一个接口,存储由HDFS实现,处理数据由MapReduce实现。简单来说,Hive可以将sql语句转换为MapReduce任务, 在HDFS上进行数据查询。Hive的特点Hive采用类SQL开发,简单容易上手,避免了编写MapReduce的工作Hive执行延迟比较高,无法胜任实时的工作(OLTP),大多用于数据分析工作(OLAP)。Hive擅长原创 2021-11-07 18:23:43 · 4042 阅读 · 0 评论 -
RPC通信原理
RPC通信原理本地过程调用(RPC)RPC就是要像调用本地的函数一样去调远程函数。在研究RPC前,我们先看看本地调用是怎么调的。假设我们要调用函数Multiply来计算lvalue * rvalue的结果:int Multiply(int l, int r) {2 int y = l * r;3 return y;4 }5 6 int lvalue = 10;7 int rvalue = 20;8 int l_times_r = Multiply(lvalue, rvalue转载 2021-10-14 23:02:40 · 134 阅读 · 0 评论 -
Yarn概述
YarnYarn是Hadoop的分布式资源调度平台,负责为集群的运算提供运算资源。如果把分布式计算机和单个计算机相对应的话,HDFS就相当于计算机的文件系统,Yarn就是计算机的操作系统,MapReduce就是计算机上的应用程序。Yarn的基本组成Yarn主要由四部分组成:ResourceManager, NodeManager, ApplicationMaster, Container。ResourceManagerResourceManager是整个集群资源的老大,负责整个集群的资源分配与调度转载 2021-10-11 23:36:37 · 4023 阅读 · 0 评论 -
MapReduce
MapReduceMapReduce是一种面向大规模数据处理的、分布式运算程序的编程框架。它通过将实际业务逻辑代码+自带默认组件的方式实现在Hadoop集群上的分布式计算。MapReduce的优势1. 易于编程MapReduce框架将整个分布式的过程都进行了封装,用户只需要根据自己的实际业务,对简单的接口进行实现,就可以达到非常理想的目的。2. 扩展性好若计算资源不足时,可直接添加机器来提高计算力。3. 容错率高如果正在运行的节点发生了意外,可以把任务交给集群中另一个节点上运行,这个调度方法原创 2021-10-01 22:20:31 · 484 阅读 · 0 评论 -
HDFS
HDFSHDFS(Hadoop Distribution File System, Hadoop分布式文件系统),是一种分布式文件系统,他能联合多个服务器节点组成一个集群,并管理这个集群提供各种高容错的、大规模的数据存储和读取等服务。HDFS的组成HDFS一般由Client, NameNode, SecondaryNameNode和多个DataNode组成。NameNodeNameNode可以说是整个HDFS的核心,大部分的操作都需要围绕着NameNode进行。NameNode管理着HDFS的原创 2021-09-26 01:23:04 · 310 阅读 · 0 评论 -
Hadoop概述
HadoopHadoop是一种目前主流的分布式系统基础架构,它不表示一种系统或者一种数据库,更确切的说,它表示一种生态结构。通过Hadoop,我们可以将海量的数据进行存储、读取以及计算。Hadoop的组成Hadoop最重要的为以下三个组成:HDFSMapReduceYarn下面将分别概述以上三个组成的基本用途。HDFS(Hadoop Distribution File System, Hadoop分布式文件系统),是一种分布式文件系统,他能联合多个服务器节点组成一个集群,并管理这个集群提原创 2021-09-25 21:35:38 · 88 阅读 · 0 评论