![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Mekeater
梦想似乎很遥远,但我愿用一生去追逐。
展开
-
配置MapReduce的历史服务器查看MR运行日志
配置MapReduce的历史服务器查看MR运行日志前言前面介绍的MapReduce实例,我们会发现无法查看Map函数和Reduce函数的具体执行过程。本文介绍如何配置历史服务器来查看MR的运行日志。一、如果我们仅仅在map和reduce的函数中加入以下代码去查看执行过程,会发现日志文件中并没有输出我们所希望的数据map函数 package com.sun.wordcount;//map阶段 (部分计算)// hadoop包装了基本类型// int->intWritable Long-原创 2020-07-05 11:41:26 · 1828 阅读 · 2 评论 -
MapReduce程序自动化执行
MapReduce程序自动化执行前言:上篇博文开发了第一个MapReduce程序,但是,我们可以发现,MapReduce程序的执行,非常麻烦,首先需要Package,然后再通过Xftp工具将jar包上传到unix服务器,再在服务器上通过Shell命名执行如下命令yarn jar hadoop-wordcount-1.0-SNAPSHOT.jar com.sun.wordcount.WordCountJob才能完成一次MapReduce程序的执行!可以想象这个执行是多么的麻烦。那么本次博文就是介绍原创 2020-06-28 21:05:30 · 409 阅读 · 0 评论 -
第一个MapReduce程序开发
第一个MapReduce程序开发前言上篇博文已经搭建完成了Hadoop的开发环境,后面我们就需要专注于MapReduce的开发了。本文介绍如何利用MapReduce进行单词个数统计的代码实现,完整介绍一个Job作业的开发流程。一、Job作业体系结构一次Job作业包括5个阶段,其中只有Map阶段和Reduce阶段是需要我们去编写逻辑代码的,其它阶段都是自动完成。二、单词统计(WordCount)例子分析二、单词统计(WordCount)程序开发1、将数据上传至HDFSaa.log的数据如原创 2020-06-26 11:10:11 · 928 阅读 · 0 评论 -
Yarn简单分布式集群搭建
Yarn简单分布式集群搭建前言上篇文章介绍了如何搭建简单分布式的HDFS集群,那么HDFS说到底仅仅是一个文件系统,Hadoop另一个核心模块MapReduce(计算框架或编程模型)就是对HDFS中存储的数据进行计算,既然要进行运算就必须要有CPU和内存,那么对于MapReduce的计算如何给它分配CPU和内存呢?这就需要一个统一资源调度器来对来对hadoop集群中的资源进行统一调度。因此Hadoop中由引入了Yarn,来完成资源调度任务。一、MapReduce工作原理MapReduce是一个计算框原创 2020-06-26 10:28:49 · 1961 阅读 · 0 评论 -
HDFS的简单分布式集群集群搭建
HDFS的简单分布式集群集群搭建前言本文介绍简单的HDFS完全分布式集群搭建操作,之所以说是简单的分布式集群,因为它并不是高可用的HDFS。下篇文章将介绍如何搭建HA的HDFS分布式集群。一、集群搭建规划共需准备4台机器。一台机器作为NomeNode节点,4台机器作为DataNode节点,其中一个DataNode节点和NameNode节点公用一台机器。hadoop3(192.168.23.133):NameNode & DataNodehadoop4(192.168.23.134):D原创 2020-06-21 09:50:09 · 329 阅读 · 0 评论 -
JAVA操作HDFS的文件系统
JAVA操作HDFS的文件系统前言:上篇文章介绍了如何利用Shell去操作HDFS中的文件,本文介绍使用Java代码去操作HDFS中的文件,它的操作内容和shell的操作内容和方法基本一致,开发集成工具选择IDEA。一、新建Maven项目填写项目名称和路径,完成即可二、添加依赖打开maven配置文件pom.xml,添加如下依赖,这个下载过程根据网络情况,可能要很久…<dependencies> <dependency> <原创 2020-06-19 10:30:11 · 1228 阅读 · 0 评论 -
Shell操作HDFS的文件系统命令详解
Shell操作HDFS的文件系统命令详解前言:如lunix系统一样,对于HDFS的操作,也有一系列的命令,并且大多和lunix系统的命令差不多,本文对常用的命令进行介绍。一、HDFS有以下Shell命令[root@hadoop2 ~]# hdfs dfsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [原创 2020-06-17 11:43:01 · 900 阅读 · 0 评论 -
SSH免密登录配置及原理
SSH免密登录配置及原理前言:上篇博文介绍如何安装Hadoop以及单机版HDFS集群的配置,但是我们采用start-dfs.sh 启动HDFS集群的时候,要不断的输入密码,这是因为这种方式启动集群时,它可以在任意一台机器节点上启动整个集群,但在启动其它机器节点时,都需要输入密码。那么真正的集群也许有很多的机器节点,这个时候如果启动hdfs都一一的输入密码,肯定是不合理的,也是做不到的。因此如何实现hdfs的免密登录呢?本文将对其进行介绍。一、另一种启动hdfs的命令 hadoop-daemon.sh原创 2020-06-17 11:10:19 · 846 阅读 · 0 评论 -
Hadoop下载安装及HDFS配置教程
Hadoop下载安装及HDFS配置教程前言Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large d原创 2020-06-16 23:47:01 · 7444 阅读 · 1 评论