Hadoop权威指南学习记录
Hadoop权威指南学习记录
XBaith
github:https://github.com/XBaith
QQ:1084794430
展开
-
MapReduce(Hadoop入门四)
MapReduce什么是MapReduceMapReduce是由两部分构成,即Map和Reduce分别对应的实现类时Mapper和Reducer。官网(http://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html) 中这么介绍的...原创 2019-08-24 22:02:46 · 265 阅读 · 0 评论 -
Hadoop配置调优属性表
map端的调优属性属性名称类型默认值说明mapreduce.task.io.sort.mbint100排序map输出时所使用的内存缓冲区大小,单位:Mmapreduce.map.sort.spill.percentfloat0.80map输出内存缓冲和用来开始磁盘溢出写过程的记录边界索引二者的比值mapreduce.task.io.sort.fac...原创 2019-08-16 16:47:36 · 212 阅读 · 0 评论 -
Hadoop虚拟集群搭建
Hadoop虚拟集群搭建环境虚拟机:VMWare 14系统:CentOS Linux 7终端:Xshell集群规划主机名IPHDFS部署节点YARN部署节点hadoop000192.168.132.128NameNode, DataNodeResourceManager, NameNodeManagerhadoop001192.168.132.12...原创 2019-08-12 02:55:28 · 160 阅读 · 0 评论 -
Hadoop的I/O操作
Hadoop的I/O操作序列化序列化是指将结构化的对象转化为字节流以便在网络上传输或者写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。序列化作用于:进程间通信和永久存储...原创 2019-08-09 20:32:06 · 315 阅读 · 0 评论 -
Hadoop出现的错误与异常
一、环境配置问题不同版本的winutils.exe和hadoop.dll等文件链接:https://github.com/4ttty/winutils1.1 java.io.IOException: HADOOP_HOME or hadoop.home.dir are not set.在Windows系统下如果没有配置HADOOP_HOME出现的异常,可以在驱动程序代码中添加环境变量...原创 2019-08-12 02:55:46 · 601 阅读 · 0 评论 -
关于YARN(Hadoop入门三)
关于YARNYARN是(Yet Another Resource Negotaitor)Hadoop的集群资源管理系统。YARN的产生背景因为YARN是从MapReduce1.x(hadoop-0.23)中拆分出来的,叫做MapReduce 2.0 (MRv2)或者YARN。mapreduce1.x的结构是master/slave : 分别对应的是JobTracker和TaskTrack...原创 2019-05-03 22:11:02 · 503 阅读 · 0 评论 -
HDFS操作 常用的Java接口(Hadoop入门二)
HDFS的设计简介:超大文件:通常指具有几百MB,GB甚至TB大小的文件。流式数据访问:一次写入,多次读取是最高效的访问模式。每次分析都将涉及该数据集的大部分甚至全部数据,因此读取整个数据集比读取第一条记录的时间延迟更为重要。商用硬件:Hadoop部署在普通硬件的集群上,因为节点故障率比较高不支持低时间延迟的数据访问:HBase是更好的大量的小文件:文件总数受限于namenode的内存容量,每个文件,目录和数据块的存储信息大致为150个字节。不支持多用户写入,任意修改文件原创 2019-04-06 16:19:44 · 427 阅读 · 0 评论 -
Hadoop在Linux中的单节点(sign-node)环境搭建(Hadoop入门一)
对于入门学习Hadoop来说,布置单节点Hadoop即可,无需布置Hadoop集群,避免产生因配置问题我用的是Win10系统并用xshell远程连接CentOS7,用户名是hadoop,虚拟机是VMware14 pro,所以下面文章都是以这些配置为例,仅供读者参考。远程连接原创 2019-03-16 00:44:50 · 713 阅读 · 0 评论