![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
sjmz30071360
这个作者很懒,什么都没留下…
展开
-
Hadoop MapReduce原理【一篇就够】
之前看英文版的《Hadoop权威指南》没有看太明白,偶然发现这个博文写得超级棒,就转过来以备后面温习用,望博主见谅!原文请看=>https://blog.csdn.net/bingduanlbd/article/details/51924398MapReduce是用于数据处理的一种编程模型,简单但足够强大,专门为并行处理大数据而设计。1. 通俗理解MapReduceMapReduce的处理过...转载 2018-04-10 10:43:30 · 553 阅读 · 0 评论 -
深入理解Hadoop HDFS【一篇就够】
又是一篇值得收藏温习的好文,更多好文请关注原文博主!!!原文=>https://blog.csdn.net/bingduanlbd/article/details/51914550#t24文本详细介绍了HDFS中的许多概念,对于理解Hadoop分布式文件系统很有帮助。1. 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。...转载 2018-04-10 12:00:31 · 171318 阅读 · 8 评论 -
MapReduce shuffle过程剖析及调优【一篇就够】
收藏温习用,更多好文请关注原文博主!!!原文=>https://blog.csdn.net/bingduanlbd/article/details/51933914MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。...转载 2018-04-10 12:27:54 · 1107 阅读 · 0 评论 -
Hadoop完全分布式集群搭建(2.9.0)
1. 集群搭建形式Hadoop环境搭建分为三种形式:单机模式、伪分布式模式、完全分布模式单机模式—— 在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。伪分布式—— 也是在一台单机上运行,但不同的是Java进程模仿分布式运行中的各类节点。即一台机器上,既当NameNode,又当DataNode,或者说既是JobTracker又是TaskTracker。没有所谓的在多台机器上...原创 2018-04-12 17:01:35 · 12749 阅读 · 3 评论 -
Spark2.1.0之代码结构及载入Ecplise方法
原文地址==》https://blog.csdn.net/beliefer/article/details/79688675本文旨在帮助那些想要对Spark有更深入了解的工程师们,了解Spark源码的概况,搭建Spark源码阅读环境,编译、调试Spark源码,为将来更深入地学习打下基础。一、项目结构 在大型项目中,往往涉及非常多的功能模块,此时借助于Maven进行项目、子项目(模块)...转载 2018-05-18 22:32:58 · 435 阅读 · 1 评论 -
大数据学习路线【一篇就够】
说在前面的话 此笔,对于仅对于Hadoop和Spark初中学者。高手请忽略! 1 Java基础: 视频方面: 推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。 书籍方面: 推荐李兴华的《java开发实战经典》 2...转载 2018-05-08 16:19:01 · 645 阅读 · 0 评论 -
HBase安装(1.2.6)
一、获取安装包wget http://mirror.bit.edu.cn/apache/hbase/1.2.6/hbase-1.2.6-bin.tar.gz二、解压安装包tar -xvf hbase-1.2.6-bin.tar.gz三、配置环境变量vi /etc/profile四、在master机器上修改hbase配置/usr/hbase/hbase-1.2.6/conf/hbase-env.sh...原创 2018-07-10 23:42:56 · 880 阅读 · 0 评论