hadoop
throws-Exception
这个作者很懒,什么都没留下…
展开
-
Mapreduce过程详解(图解+注解)
MapReduce一共分为map和reduce两个阶段(1234)map task流程是通过TextInputFormat->RecordReadeer->read()一次读一行,返回到(key,value)(5)获取(key,value)单行数据,进行数据分割,生成新的(key,value),通过context.write()把新的(key,value)输出到OutpuCollector收集器中。(6789)OutputCollector会把(key,value)放入缓冲区如果缓冲区..原创 2020-06-11 22:30:41 · 1518 阅读 · 0 评论 -
MapReduce的双表连接join
1.概述在传统数据库(如:MySql)中,JOIN操作常常是非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。下面分别介绍MapReduce中的几种常见join,比如有最常见的 map side join,reduce side join,semi join(这些在Hive中都有) 等。Map side join在处理多个小表关联大表时非常有用,而 reduce join 在处理多表关联时是比较麻烦的,会造成大量的网络I原创 2020-06-07 15:40:46 · 609 阅读 · 0 评论 -
MapReduce序列化和反序列化
在Mapreduce的方法构造中,输入类型和输出类型可为IntWritable、LongWriteable、FloatWritable、Text、DoubleWritable, BooleanWritable、NullWritable等类型,同时也需要落盘称为序列化。可序列化(serializable)作用:网络传输以及持久化存储。下面举例如何序列化以及反序列化。先写一个测试文件:1,zs,KB01,902,ls,KB02,803,ww,KB01,424,zl,KB02,96与此同时map原创 2020-06-07 15:34:44 · 1351 阅读 · 0 评论 -
MapReduce介绍以及原理
MapReduce什么是MapReduceMapReduce的设计思想什么是MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来原创 2020-06-07 15:21:26 · 1069 阅读 · 0 评论 -
Hadoop核心HDFS介绍以及基础指令
HDFS介绍以及指令HDFS(Hadoop Distributed File System)1、HDFS特点:HDFS优点HDFS缺点2、HDFS dfsadmin3、HDFS CLI (命令行)4、HDFS架构5、HDFS副本机制(1)Block:数据块(2)存放机制:6、HDFS高可用(High Availability)7、HDFS读文件8、HDFS写文件9、HDFS文件格式Hadoop三大核心中HDFS的介绍HDFS(Hadoop Distributed File System)HDFS:分布原创 2020-06-02 19:40:28 · 441 阅读 · 0 评论 -
hadoop目录介绍(各目录功能介绍)
hadoop目录1、bin:2、sbin3、etc4、lib5、logs6、include7、libexec8、share目录介绍hadoop的目录首先进入hadoop查看目录挑重要的介绍1、bin:bin目录是Hadoop最基本的管理脚本和使用脚本所在的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop2、sbin存放的是我们管理脚本的所在目录,重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护文件名称作用h原创 2020-06-02 19:08:53 · 7365 阅读 · 1 评论 -
Hadoop介绍以及linux下安装(图解)
Hadoop简介1、Hadoop是什么:Hadoop是一个开源分布式系统架构。2、为什么使用Hadoop特性3、Hadoop vs RDBMSHadoop与关系型数据库对比4、Hadoop 生态圈5、Hadoop架构6、Hadoop安装1、解压移动2、修改配置文件a.首先获得jdk的环境变量位置b、修改hadoop-env.shc、修改cored、修改hdfs-site.xmle、修改mapred-site.xmlf、修改yarn配置3. 配置环境变量4. 启动hadoop1、Hadoop是什么:Had原创 2020-06-01 16:28:56 · 282 阅读 · 0 评论