Hadoop
javafanwk
专注微服务架构,熟悉react、大数据、云计算,喜欢看java编程思想,设计模式,算法等书,希望通过我的努力减少代码量,提高java的标准化,提高程序的稳定度,认真搞技术,一直在路上,希望大家共同前行,进步。。。
展开
-
hadoop window 配置总结
核心问题1.是windows环境中没有配置hadoophome.配置之后加入winutils工具https://github.com/steveloughran/winutils 推荐使用 2.7.1 不要使用2.2.0 (有很多问题)a.增加用户变量HADOOP_HOME,值是下载的zip包解压的目录,b.系统变量path里增加%HADOOP_HOME%\bin ,...原创 2019-05-30 10:43:51 · 783 阅读 · 0 评论 -
hadoop 的wordcount 程序
配置本地windows 可以参考本人博客1.启动配置输入参数: D:\input D:\output注意:输入输出是一个文件目录 输入目录必须不存在 输入目录中放输入问题2.a.txt input 目录中文件内容shanghai bejing shanghai bejing bejing bejing bejing shanghai bejing 3.outp...原创 2019-05-30 12:14:53 · 241 阅读 · 0 评论 -
Hadoop(一) HDFS的存储机制
HDFS的写入数据流程1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端请求dn1上传数据,dn1收到请求会继续调用dn2,然后d...原创 2019-05-29 15:06:15 · 609 阅读 · 1 评论 -
Hadoop(二)mapReduce 工作机制
MapTask工作机制(1)Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。(3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputC...原创 2019-05-29 15:51:31 · 142 阅读 · 0 评论 -
Hadoop(三)mapreduce 跑的慢的原因及其优化方法
mapreduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。mapreduce 优化方法1)数...原创 2019-05-29 15:58:25 · 10513 阅读 · 0 评论