自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

暗夜zzzz

技术博客

  • 博客(7)
  • 收藏
  • 关注

原创 Hadoop InputFormat 数据处理机制

文章目录Inputformat 概述Inputformat 实现详解Inputformat 实现类FileInputFormatInputformat 概述问题引入:在运行MapReduce程序时,输入的文件格式包括:基于行的日志文件,二进制格式文件,数据库表等。那么,针对不同的数据类型,MapReduce是如何读取这些数据的呢?问题答案:显然,在数据传递给MapTask之前,需要对数...

2020-03-30 18:56:37 304

原创 大数据 数据切片与MapTask并行机制

问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?要想提高Map阶段的数据处理效率,考虑如何将数据进行切分,并且启动多少数量的MapTask任务...

2020-03-28 23:40:53 382

原创 大数据 NameNode SecondaryNameNode 工作原理

文章目录NameNode SecondaryNameNode 工作机制NameNode元数据储存问题引入Fsimage Edits 概念NameNode SecondaryNameNode 工作流程详述NameNode SecondaryNameNode 工作机制NameNode元数据储存问题引入思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNod...

2020-03-27 01:09:02 216

原创 大数据 Hadoop读写数据流程解析

文章目录概述写入(上传)数据流程读取(下载)数据流程概述HDFS能正常工作,对外提供数据储存服务,与Hadoop体系中各种组件的协作配合是分不开的。其中组件有 NameNode, DataNode, Client等,下述部分描述了各种组件的作用,以及相关的关系和在文件系统中读取和写入数据的流程。写入(上传)数据流程下图是向HDFS文件系统中写入(上传)数据时的流程图。各数据处理步骤说明见一...

2020-03-26 00:27:38 466

原创 大数据 Hadoop序列化

文章目录序列化概述序列化定义序列化的应用Hadoop序列化Hadoop序列化的特点Hadoop对应Java序列化类Hadoop 自定义对象序列化序列化概述序列化定义序列化就是把内存中的对象转换成字节序列 (或者其他数据传输协议) 以便于储存到磁盘 (持久化) 和网络传输。反序列化就是将接收到的字节序列 (或其他数据传输协议) 或者是磁盘持久化数据,转换成为内存中的对象。序列化的应用...

2020-03-25 23:42:15 134

原创 大数据 MapReduce概述

文章目录MapReduce 定义MapReduce 优缺点优点缺点MapReduce 核心思想官方单词统计案例分析Map 阶段Reduce 阶段总结MapReduce 定义MapReduce是一个分布式运行程序的编程框架,是用户开发"基于Hadoop的数据分析应用的核心框架。MapReduce核心功能是把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运行程序,并发运行在一个Had...

2020-03-23 09:55:00 218

原创 大数据 Hadoop HDFS概述

文章目录HDFS 概述HDFS 产生背景HDFS 定义HDFS 使用场景HDFS 架构组成NameNodeSecondary NameNodeDataNodeClientHDFS 优缺点优点缺点HDFS 概述HDFS 产生背景随着计算机技术的发展,数据量越来越大,在一个操作系统中存不下所有的数据,就会把数据分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器...

2020-03-23 00:23:41 116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除