![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 79
程序猿渣渣帅
技术、生活、观点、个人成长。 主要关注互联网电商广告业务、数据分析方法论、大数据分析平台建设;java web、分布式、大数据处理以及可视化等相关技术。
展开
-
Hadoop权威指南---I/O操作
目录Hadoop的I/O操作 1、数据完整性 1.1、HDFS的数据完整性 1.2、 LocalFileSystem 和 ChecksumFileSystem 2、 压缩 CompressionCodec2.1、 codec:Hadoop中对常用压缩解压缩算法的实现2.2、 压缩和输入分片2.3、 在MapReduce中使用压缩3、 序列化 Writable...原创 2018-09-16 12:45:03 · 649 阅读 · 0 评论 -
Hadoop权威指南---HDFS简介和java API操作
目录1、HDFS的设计2、 HDFS的概念 2.1 数据块 2.2 namenode和datanode 概述2.3 块缓存 2.4 联邦HDFS 2.5 HDFS的高可用性 3、 命令行接口4、 Hadoop文件系统分类5、Java接口API5.1、增:创建文件create和write、文件夹mkdirs5.2、删:删除文件夹和文件delete...原创 2018-09-16 17:03:05 · 955 阅读 · 0 评论 -
Hadoop权威指南---MapReduce应用开发
目录1、打包作业 2、 启动作业 3、 MapReduce的Web界面 3.1、资源管理器界面3.2、MapReduce作业界面4、Hadoop日志 6、 远程调试 7、作业调优8、MapReduce的工作流 8.1、 将问题分解成MapReduce作业 8.2、 关于JobControl 8.3 、关于Apache Oozie 1、打包作业...原创 2018-09-21 01:05:04 · 361 阅读 · 0 评论 -
Hadoop权威指南---管理Hadoop
目录1、HDFS 1.1 永久性数据结构 1.1.1、namenode的目录结构1.1.2、文件系统镜像和编辑日志1.1.3、辅助namenode的目录结构1.1.4、DataNode的目录结构1.2 安全模式1.3 日志审计1.4 工具 1.4.1、dfsadmin1.4.2、文件系统检查工具fsck1.4.3、datanode块扫描器1.4...原创 2018-09-16 20:54:05 · 221 阅读 · 0 评论 -
Hadoop权威指南---Hadoop配置
目录1、 环境设置 1.1、内存堆大小1.2、系统日志文件2、 Hadoop守护进程的关键属性2.1、HDFS相关设置2.2、yarn相关设置2.3、yarn和MapReduce的内存设置2.4、yarn和MapReduce的CPU设置3、 Hadoop守护进程的地址和端口 4、 Hadoop的其他属性4.1、集群成员添加和移除4.2、缓冲区大小...原创 2018-09-16 22:19:14 · 366 阅读 · 0 评论 -
Hadoop权威指南.大数据的存储与分析.第4版目录
目录第Ⅰ部分 Hadoop基础知识第1章 初识Hadoop 31.1 数据!数据! 31.2 数据的存储与分析 51.3 查询所有数据 61.4 不仅仅是批处理 71.5 相较于其他系统的优势 81.5.1 关系型数据库管理系统 81.5.2 网格计算 101.5.3 志愿计算 111.6 Apache Hadoop发展简史 121.7 本书包含的内容 16第2章 关于M...原创 2018-09-10 10:03:53 · 874 阅读 · 0 评论 -
Hadoop权威指南---MapReduce的类型与格式
目录1、MapReduce的类型简介2、 输入格式 2.1、输入分片与记录 1)、FileInputFormat类2)、FileInputFormat类的输入路径3)、FileInputFormat类的输入分片4)、小文件和combineFileInputFormat5)、避免切分6)、mapper中的文件信息7)、把整个文件当成一条记录处理2.2、文本...原创 2018-09-23 12:01:24 · 303 阅读 · 0 评论 -
Hadoop权威指南---map和reduce函数使用解析
目录1、数据准备2、 Java MapReduce 2.1、map函数的实现2.2、reduce函数的实现2.3、负责运行MapReduce的代码2.4、运行测试 3、旧的和新的Java MapReduce API几个明显的区别4、数据流和combiner函数 4.1 数据流 4.2 combiner函数 4.3 Hadoop Streaming...原创 2018-09-19 20:52:21 · 12888 阅读 · 0 评论 -
Hadoop权威指南---YARN
目录YARN简介一、剖析YARN应用运行机制 1、资源请求---分配机制2、应用生命期---工作模式二、 YARN与MapReduce 1相比三、 YARN中的调度 (默认的是容量调度器)1、调度器的分类2、容量调度器配置 3、公平调度器配置 4、延迟调度 5、主导资源公平性 YARN简介一、剖析YARN应用运行机制 ...原创 2018-09-15 14:44:37 · 642 阅读 · 0 评论 -
Hadoop权威指南---MapReduce的工作机制
目录1、 剖析MapReduce作业运行机制 1.1、 作业的提交 1.2、 作业的初始化 1.3、 任务的分配 1.4 、任务的执行 1.5、 进度和状态的更新1.6、 作业的完成 2 、失败 2.1、 任务运行失败2.2、 application master运行失败2.3 、节点管理器运行失败 2.4 、资源管理器运行失败 ...原创 2018-09-25 20:27:53 · 711 阅读 · 0 评论 -
Hadoop1.0与Hadoop2.0的区别
1、什么是Hadoop1.0?Hadoop1.0即第一代Hadoop,指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)...原创 2018-09-09 10:01:16 · 2488 阅读 · 0 评论 -
Hadoop2.7集群环境搭建
目录一、安装Hadoop前的准备二、安装Hadoop1、安装Hadoop2、配置Hadoop的环境变量3、修改Hadoop的配置文件4、启动1)、启动HDFS2)、启动yarn3、启动全部5、Hadoop常用命令说明三、安装过程可能遇到的问题一、安装Hadoop前的准备服务器目录约定:所有的按照文件均放在/export下/export/p...原创 2018-09-08 18:07:46 · 2085 阅读 · 0 评论 -
hadoop概念和版本问题
1、Hadoop概念Hadoop: 适合大数据的分布式存储和计算平台 它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS) HDFS为海量的数据提供了存储,则MapReduce为海量的数据提...原创 2018-08-26 23:58:17 · 221 阅读 · 0 评论 -
Hadoop---hdfs基础
目录1、设计前提与目标2、HDFS的体系结构1)、HDFS的读操作2)、HDFS的写操作3、保障HDFS的可靠性措施4、HDFS常用Shell操作5、使用Java API操作HDFSHDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是分布式计算中数据存储管理的基础。它所具有的高容错、高可靠、高可扩展性、高吞吐率等特性...原创 2018-08-27 00:37:31 · 369 阅读 · 0 评论 -
Hadoop2.x HDFS源码剖析---概述
一、HDFS概述基于hadoop2.6HDFS被设计能够运行在通用硬件上、提供流式数据操作、能够处理超大文件的分布式文件系统。特点:高容错和高吞吐量、易扩展、高可靠性HDFS的四个核心模块:namenode节点、datanode节点、客户端、HDFS协议(RPC协议、流式接口协议:HTTP和TCP)基本概念1、数据块(block)数据块是HDFS文件处理(读和写)的最小单元,...原创 2018-08-28 23:49:59 · 6557 阅读 · 0 评论 -
基于NOI的Reactor设计模式
目录一、reactor设计模式简介1、在Reactor模式中,有5个关键的参与者1)、描述符(handle)2)、同步事件分离器(demultiplexer)3)、事件处理器接口(event handler)4)、具体的事件处理器5)、Reactor 管理器(reactor)2、运行流程3、总结4、具体模型分类5、基于NIO 服务端创建Reactor设计...原创 2018-08-27 20:56:04 · 414 阅读 · 0 评论 -
同步、异步、阻塞与非阻塞
目录1、同步与异步1.1 、概念描述1.2 、消息通知1.3、 场景比喻2 、阻塞与非阻塞2.1 、概念描述2.2、 场景比喻3、同步/异步与阻塞/非阻塞3.1、同步阻塞形式3.2、异步阻塞形式3.3、同步非阻塞形式3.4、异步非阻塞形式4、场景比喻1、同步与异步首先来解释同步和异步的概念,这两个概念与消息的通知机制有关。也就是同步与异步...原创 2018-09-03 18:41:58 · 232 阅读 · 1 评论 -
Hadoop常见的shell命令
目录一、Hadoop 命令1、查看Hadoop的版本2、查看Hadoop命令的格式 2.1、压缩文件archive2.2、在两个HDFS之间拷贝数据 (hadoop distcp)3、通过Hadoop fs 查看HDFS的格式 二、hdfs命令1、查看hdfs的版本2、查看hdfs命令的格式 3、管理员操作命令hdfs dfsadmin...原创 2018-08-28 20:56:18 · 2566 阅读 · 0 评论 -
Hadoop概念知识点整理
1.HDFS数据存放策略分块存储+副本存放。2.数据拓扑结构(即数据备份)默认存放3份,可以通过修改配置文件hdfs-site.xml修改备份数量,如果本机在集群中,第一份就会存放到本节点即本机上,如果不在集群中,就通过负载均衡存放到一个相应的随机节点上,第二份存放在同机柜的不同节点上,第三份存放在不同机柜的某个节点上。备注:备份3的含义是一共只有三份数据3.数据查找就近原则,先...原创 2018-08-28 21:03:55 · 828 阅读 · 0 评论 -
Hadoop整体概述
目录 前言core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml一、HDFSHDFS的设计理念HDFS的缺点1、NameNode1.1、namenode的作用1.2、元数据目录说明1.3、NameNode启动2、Secondary NameNode 3、数据存储细节4、DataN...原创 2018-08-29 20:51:05 · 5135 阅读 · 0 评论 -
HDFS、MapReduce、hive、HBASE和spark常用参数设置
一、MapReduce重要配置参数1. 资源相关参数(1) mapreduce.map.memory.mb一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Re...原创 2018-09-25 20:55:09 · 1061 阅读 · 0 评论