hadoop
拧螺丝专业户
这个作者很懒,什么都没留下…
展开
-
WordCount背后的MapReduce原理全面详解
Hadoop之WordCount详解这应该是一篇比较全面的MapReduce之WordCount文章了 耐心看下去1,创建本地文件在hadoop-2.6.0文件夹下创建一个文件夹data,在其中创建一个text文件 mkdir datacd datavi hello再在当前文件夹中创建一个apps文件夹,方便后续传jar包mkdir apps将文本文件传...原创 2018-08-26 10:05:17 · 5505 阅读 · 0 评论 -
Hadoop-2.5.1安装步骤及异常处理
Hadoop安装步骤目标在vmware14.1.1中的三个虚拟机上安装hadoop 2.5.1 稳定版本。由于hadoop 2.x.x 都是同一个系列,所以其他hadoop 2.x.x版本的安装可以参照这篇步骤来做。环境介绍三台vmware-14.1.1中的虚拟机操作系统:ubuntu 16.04 LTS网络配置:vm-01 /etc/hosts文件 127.0.0.1 ...原创 2018-12-04 11:00:38 · 816 阅读 · 0 评论 -
分布式文件系统HDFS的起源、架构、组成、特性以及数据操作方式
HDFS知识学习 hdfs全程是Hadoop Distributed File System,是一个分布式文件系统。 本博客首先介绍一下分布式的相关概念和知识,然后介绍HDFS的架构与组成,接着会详细分析HDFS读写数据的过程与元数据的管理,最后会总结操作HDFS文件的方式。一篇博客不可能详细讲清楚每一个细节,如果有不足和需要更正的地方,还希望大家留言指出来。分布式 分布式是近...原创 2019-05-14 10:15:43 · 2765 阅读 · 0 评论 -
Hadoop资源调度框架Yarn的知识体系
下面是Yarn的知识体系图,这篇文章会介绍所有涉及的知识点。一、MRv1的架构和缺陷Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。在 MapReduce 框架中,作业执行受两种类型的进程控制:一个称为 JobTracker 的主要进程,它协调在集群上运行的所有作业,分配要在 TaskT...原创 2019-05-19 10:46:43 · 570 阅读 · 0 评论 -
Java远程操作HDFS文件系统
目标:通过Java编程实现远程HDFS文件系统的增、删、改、查,并且解释原理。一、准备工作集群:搭建Hadoop集群,并且启动HDFS。详细过程可以参考:Hadoop-2.5.1安装步骤及异常处理二、创建Maven工程选择创建工程:选择JDK版本,并勾选"create from archetype"选项,千万不要手贱选择“quick start”,选快速开启的话,创建的maven工程中...原创 2019-05-30 23:08:30 · 4213 阅读 · 0 评论