![](https://img-blog.csdnimg.cn/20190820013750598.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop权威指南学习记录
Hadoop权威指南学习记录
XBaith
github:https://github.com/XBaith
QQ:1084794430
展开
-
MapReduce(Hadoop入门四)
MapReduce 什么是MapReduce MapReduce是由两部分构成,即Map和Reduce分别对应的实现类时Mapper和Reducer。官网(http://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html) 中这么介绍的 ...原创 2019-08-24 22:02:46 · 265 阅读 · 0 评论 -
Hadoop配置调优属性表
map端的调优属性 属性名称 类型 默认值 说明 mapreduce.task.io.sort.mb int 100 排序map输出时所使用的内存缓冲区大小,单位:M mapreduce.map.sort.spill.percent float 0.80 map输出内存缓冲和用来开始磁盘溢出写过程的记录边界索引二者的比值 mapreduce.task.io.sort.fac...原创 2019-08-16 16:47:36 · 211 阅读 · 0 评论 -
Hadoop虚拟集群搭建
Hadoop虚拟集群搭建 环境 虚拟机:VMWare 14 系统:CentOS Linux 7 终端:Xshell 集群规划 主机名 IP HDFS部署节点 YARN部署节点 hadoop000 192.168.132.128 NameNode, DataNode ResourceManager, NameNodeManager hadoop001 192.168.132.12...原创 2019-08-12 02:55:28 · 159 阅读 · 0 评论 -
Hadoop的I/O操作
Hadoop的I/O操作 序列化 序列化是指将结构化的对象转化为字节流以便在网络上传输或者写到磁盘进行永久存储的过程。 反序列化是指将字节流转回结构化对象的逆过程。 序列化作用于:进程间通信和永久存储 ...原创 2019-08-09 20:32:06 · 313 阅读 · 0 评论 -
Hadoop出现的错误与异常
一、环境配置问题 不同版本的winutils.exe和hadoop.dll等文件链接: https://github.com/4ttty/winutils 1.1 java.io.IOException: HADOOP_HOME or hadoop.home.dir are not set. 在Windows系统下如果没有配置HADOOP_HOME出现的异常,可以在驱动程序代码中添加环境变量 ...原创 2019-08-12 02:55:46 · 599 阅读 · 0 评论 -
关于YARN(Hadoop入门三)
关于YARN YARN是(Yet Another Resource Negotaitor)Hadoop的集群资源管理系统。 YARN的产生背景 因为YARN是从MapReduce1.x(hadoop-0.23)中拆分出来的,叫做MapReduce 2.0 (MRv2)或者YARN。 mapreduce1.x的结构是master/slave : 分别对应的是JobTracker和TaskTrack...原创 2019-05-03 22:11:02 · 503 阅读 · 0 评论 -
HDFS操作 常用的Java接口(Hadoop入门二)
HDFS的设计简介: 超大文件:通常指具有几百MB,GB甚至TB大小的文件。 流式数据访问:一次写入,多次读取是最高效的访问模式。每次分析都将涉及该数据集的大部分甚至 全部数据,因此读取整个数据集比读取第一条记录的时间延迟更为重要。 商用硬件:Hadoop部署在普通硬件的集群上,因为节点故障率比较高 不支持低时间延迟的数据访问:HBase是更好的 大量的小文件:文件总数受限于namenode的内存容量,每个文件,目录和数据块的存储信息大致为150个字节。 不支持多用户写入,任意修改文件原创 2019-04-06 16:19:44 · 424 阅读 · 0 评论 -
Hadoop在Linux中的单节点(sign-node)环境搭建(Hadoop入门一)
对于入门学习Hadoop来说,布置单节点Hadoop即可,无需布置Hadoop集群,避免产生因配置问题 我用的是Win10系统并用xshell远程连接CentOS7,用户名是hadoop,虚拟机是VMware14 pro,所以下面文章都是以这些配置为例,仅供读者参考。 远程连接原创 2019-03-16 00:44:50 · 709 阅读 · 0 评论