hadoop
klionl
这个作者很懒,什么都没留下…
展开
-
Mapreduce中自定义OutputFormat
Hadoop学习Mapreduce中自定义OutputFormatOutputFormat接口实现类自定义OutputFormatMapreduce中自定义OutputFormatOutputFormat接口实现类OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口文本输出TextOutputFormat默认的输出...原创 2020-04-26 16:59:53 · 229 阅读 · 0 评论 -
Mapreduce中的Combiner合并
Hadoop--入门Mapreduce中的Combiner合并Combiner合并Combiner合并案例Mapreduce中的Combiner合并Mapreduce中的mapper阶段将输入的数据转换成一个个键值对的形式<key,value>,再经过shuffle机制对数据进行整理,最后reducer阶段处理数据并输出结果。这是一个mr程序一般的处理流程。在这个过程中至少存在两处...原创 2020-04-22 15:25:19 · 520 阅读 · 0 评论 -
Mapreduce排序介绍
Hadoop--入门Mapreduce排序介绍1. 排序概述2. 全排序案例3. 区内排序案例Mapreduce排序介绍1. 排序概述排序是Mapreduce中重要的一步,MapTask和ReduceTask均会对数据按照key进行排序,该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。...原创 2020-04-16 16:16:11 · 1005 阅读 · 0 评论 -
Mapreduce的Partition分区介绍
Hadoop--入门Mapreduce的Partition分区介绍1. Partition分区2. 自定义Partitioner步骤3. 自定义案例Mapreduce的Partition分区介绍1. Partition分区在前面的Mapreduce流程中提到过在shuffle过程中有分区操作,分区决定着你开启的Reduce Task数量和最终的输出文件数量,在前面的案例中,我们能看到最终的输...原创 2020-04-15 16:05:33 · 1163 阅读 · 0 评论 -
Mapreduce工作流程和Shuffle机制
Hadoop--入门Mapreduce工作流程和Shuffle机制Mapreduce工作流程Shuffle机制Mapreduce工作流程和Shuffle机制Mapreduce工作流程Mapreduce由Map阶段和Reduce阶段组成,在前面我们编写mapreduce程序时,比如WordCount案例等,需要实现map()函数和reduce()函数Map阶段Reduce阶段Shuf...原创 2020-04-14 17:47:48 · 393 阅读 · 0 评论 -
FileInputFormat切片机制和实现类
Hadoop--入门FileInputFormat切片机制和实现类FileInputFormat切片机制CombineTextInputFormat切片机制CombineTextInputFormat案例FileInputFormat实现类1. TextInputFormat2. KeyValueTextInputFormat3. NLinelnputFormatFileInputFormat切...原创 2020-04-13 16:35:25 · 580 阅读 · 0 评论 -
Hadoop序列化
Hadoop--入门Hadoop序列化1. 序列化概述2. 自定义序列化接口(Writable)3. 自定义序列化案例Hadoop序列化1. 序列化概述序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化?一般来说,“活的” 对象只生...原创 2020-04-08 19:39:55 · 1358 阅读 · 0 评论 -
WordCount案例实操
Hadoop--入门WordCount案例实操1.需求分析2.环境准备3.编写代码1.Mapper类2.Reducer类3.Driver驱动类4.本地测试5.集群测试WordCount案例实操1.需求分析在给定的文本文件中统计输出每一个单词出现的总次数2.环境准备创建maven工程,在pom.xml文件中添加如下依赖<dependencies> <depen...原创 2020-04-08 14:03:01 · 920 阅读 · 0 评论 -
MapReduce介绍
Hadoop--入门MapReduce介绍1.简介2.优缺点3.核心思想3.常用数据序列化类型4.编程规范MapReduce介绍1.简介MapReduce是一个分布式运算程序的编程框架, 是用户开发”基于Hadoop的数据分析应用”的核心框架。MapReduco核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapRedu...原创 2020-04-07 21:10:49 · 274 阅读 · 0 评论 -
DataNode工作机制
Hadoop--入门DataNode工作机制1.DataNode工作机制2.掉线时限参数设置DataNode工作机制1.DataNode工作机制1 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所...原创 2020-04-07 16:57:15 · 187 阅读 · 0 评论 -
NameNode和SecondaryNameNode工作机制
Hadoop--入门NameNode和SecondaryNameNode工作机制1.NN和2NN工作机制2.查看Fsimage文件3. 查看Edits文件NameNode和SecondaryNameNode工作机制NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存...原创 2020-04-07 15:10:20 · 255 阅读 · 0 评论 -
HDFS读写数据流程
Hadoop--入门HDFS读写数据流程1.机架感知--副本存储节点选择2.网络拓扑--节点距离计算3.写流程4.读流程HDFS读写数据流程1.机架感知–副本存储节点选择关于机架感知官方文档http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/RackAwareness.html后文借鉴的官方文档h...原创 2020-04-06 18:25:03 · 698 阅读 · 0 评论 -
HDFS的常用API介绍
Hadoop--入门HDFS常用API1.常用API1.创建目录2.文件上传测试参数优先级3.文件下载4.文件夹删除5.文件更名6.文件详情查看6.判断文件和文件夹2.完整代码HDFS常用API创建一个Maven工程,导入相应的依赖坐标和日志添加,我这里hadoop的版本为2.7.2<dependencies> <dependency> <groupI...原创 2020-04-04 18:00:45 · 2522 阅读 · 0 评论 -
HDFS概述及常用命令
Hadoop--入门HDFS概述及常用命令一.HDFS概述1.背景2.定义二.HDFS优缺点1.优点2.缺点三.HDFS组成结构1.NameNode2.DataNode3.Client4.Secondary NameNode四.HDFS常用命令1.基本语法2.命令大全3.常用命令实操HDFS概述及常用命令一.HDFS概述1.背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配...原创 2020-04-03 17:02:34 · 305 阅读 · 0 评论 -
集群分发脚本xsync的编写与介绍
Hadoop--入门编写集群分发脚本xsync1.rcp命令2.scp命令3.rsync 远程同步工具4.xsync集群分发脚本1.创建文件2.编写代码3.修改脚本 xsync 具有执行权限4.调用脚本形式:xsync 文件名称编写集群分发脚本xsync在配置完全分布式的时候我们需要将主结点的配置文件分发到多台从结点上,使用xsync脚本就不用照着主节点一个个去改从结点的配置文件,比较省时省力...原创 2020-04-03 11:31:29 · 1608 阅读 · 0 评论 -
Hadoop伪分布式部署
Hadoop--入门Hadoop伪分布式部署一.前期工作二.启动HDFS1.配置hadoop-env.sh2.配置core-site.xml3.配置hdfs-site.xml4.格式化NameNode5. 启动NameNode和DataNode6.查看web端7.注意事项8.实操三.启动YARN1.配置yarn-env.sh2.配置yarn-site.xml3.配置:mapred-env.sh4....原创 2020-04-03 08:43:28 · 215 阅读 · 0 评论 -
Hadoop安装
Hadoop--入门Hadoop安装一.安装jdk二.安装HadoopHadoop安装一.安装jdk在opt下创建两个目录module/和software/ softwa用来放压缩包。module用来放解压之后的文件我是使用的VMware的共享文件夹进行主机和虚拟机之间的文件传输,共享文件夹的内容在虚拟机/mnt/hgfs目录下将共享文件夹内的jdk压缩包和hadoop压缩包剪切到/...原创 2020-04-01 16:35:20 · 280 阅读 · 0 评论 -
Hadoop目录结构及单机模式
Hadoop--入门Hadoop目录结构及单机模式一. Hadoop目录结构二.Hadoop三种模式三.单机模式1. Grep案例2.WordCount案例Hadoop目录结构及单机模式一. Hadoop目录结构1 bin: 管理命令,一些系统的服务2 etc: 存放配置文件,如core-site.xml,hdfs-site.xml,mapred-site.xml等重要配置文件,后续的...原创 2020-04-01 13:28:43 · 345 阅读 · 0 评论 -
Hadoop概述及CentOS安装和使用
HadoopHadoop(一)一. Hadoop概述1.HDFS2.MapReduce二.准备工作1.安装虚拟机软件 Vmware Workstation Pro2.安装Linux操作系统(CentOS7.4)下载CentOS镜像文件Hadoop(一)一. Hadoop概述Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速...原创 2020-04-01 11:43:40 · 1972 阅读 · 1 评论