大树叶 技术专栏

骨灰攻城狮 架构师

Hadoop中mapred包和mapreduce包的区别

Hadoop中mapred包和mapreduce包的区别就是: mapred代表的是hadoop旧API,而mapreduce代表的是hadoop新的API。 比如新版MR,则一定要引入下面的package,别弄错了! ​​​​​​​import org.apache.hadoop.map...

2019-08-11 04:19:56

阅读数 14

评论数 0

在spring boot下如何通过rest 接口 来上传文件 和下载文件 到 hadoop hdfs

本文将用代码来演示在spring boot里面,用hadoop client,通过restful API来上传文件 和下载文件 到 hadoop hdfs。 里面有一些代码依赖坑,注意绕行。 前提: 如果你的代码在windows上运行,去连接linux上的hadoop(2.7.x或者以上),...

2018-08-15 23:57:04

阅读数 2261

评论数 0

【推荐】hadoop--HA分布式集群部署步骤总结

一、理论基础 ( 一)  HA 概念以及作用   HA(High Available), 高可用性群集,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运...

2018-05-10 23:45:09

阅读数 234

评论数 0

如何修改Hadoop的默认日志级别,还真是麻烦

鄙人使用的Hadoop版本为2.6.4。Hadoop的默认日志级别为INFO,对于百台以上的集群,如果文件操作频繁的话,NameNode会狂打日志,对性能会有一定的影响。我们可以通过http://<namenode:50070>/logLevel在线修改...

2018-04-17 22:34:21

阅读数 785

评论数 0

[推荐]Hadoop HA高可用集群搭建(2.7.2)

1.集群规划: 主机名IP安装的软件 执行的进程drguo1 192.168.80.149jdk、hadoop NameNode、DFSZKFailoverController(zkfc)、ResourceManager drguo2192...

2018-04-16 19:10:51

阅读数 108

评论数 0

CentOS7.3.x + Hadoop 2.9.0 集群搭建实战

 前言: 系统安装要求   1: CentOS7  2:  Hadoop 2.9.0    3:  JDK1.8  说明:Hadoop从版本2开始加入了Yarn这个资源管理器,Yarn并不需要单独安装。只要在机器上安装了JDK就可以直接安装Hadoop,单纯安装Hadoop并不依赖Zookeepe...

2018-04-16 14:59:21

阅读数 642

评论数 0

基于 CentOS 7.3.x + hadoop v2.9.0 集群的 Hive 2.3.2 的安装与使用

前言安装Apache Hive前提是要先安装hadoop集群,并且hive只需要在hadoop的namenode节点集群里安装即可:需要在namenode上安装,可以不在datanode节点的机器上安装。还需要说明的是,虽然修改配置文件并不需要把hadoop运行起来,但是本文中用到了hadoop的...

2018-04-08 11:21:40

阅读数 835

评论数 0

运维经验分享:Hadoop管理员的十个最佳实践

接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。 在解决问题的过程中,有时需要翻...

2016-03-21 14:52:13

阅读数 429

评论数 0

Hadoop权限管理

1. 介绍 本文介绍的Hadoop权限管理包括以下几个模块: (1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等 (2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等...

2016-03-21 14:28:55

阅读数 422

评论数 0

处理数据时,hadoop如何找最近的数据节点呢?

首先,namenode维护着当前集群中datanode的拓扑情况(也就是哪个datanode在哪个机架上)。 hadoop认为datanode与客户端的距离,最近的是客户端本身(如果客户端与datanode在同一台机器上时), 其次是与客户端在同一机架上的datanode,最远的是与客户端在不...

2016-03-20 17:52:51

阅读数 731

评论数 0

hadoop命令详解

一、用户命令 1、archive命令 (1).什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_in...

2016-03-20 14:39:19

阅读数 375

评论数 0

hadoop dfsadmin

dfsadmin是一个多任务的工具,我们可以使用它来获取HDFS的状态信息,以及在HDFS上执行的一系列管理操作。 调用方式 例如:Hadoop dfsadmin -report dfsadmin命令详解 -report:查看文件系统的基本信息和统计信息。 -safeadmin ente...

2016-03-20 14:24:39

阅读数 851

评论数 0

Hadoop NameNode元数据相关文件目录解析

在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘: 1 [wyp@wyp hadoop-2.2.0]$  $HADOOP_HOME/bin/hdfs namenode -format ...

2016-03-20 11:21:01

阅读数 468

评论数 0

Hadoop文件系统元数据fsimage和编辑日志edits

在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件: 查看源代码 打印帮助 1 current/ 2 ...

2016-03-20 11:19:47

阅读数 261

评论数 0

Hadoop调优

mapred.tasktracker.map.tasks.maximum   官方解释:The maximum number of map tasks that will be run  simultaneously by a task tracker.   我的理解:一个tasktrac...

2016-03-19 22:03:00

阅读数 255

评论数 0

hadoop节点运行的reduce和map任务数

背景:之所以想确认这个数据,是因为在hadoop的集群系统中,发现各个节点的CPU使用率都不高,并且查看整个集群并发的map和reduce数,都只有6(三台hadoop机器) 分析:为了查清楚,为什么tasktracker都只启动了两个map任务和两个reduce任务,查看了hadoop...

2016-03-19 19:43:48

阅读数 2678

评论数 0

提示
确定要删除当前文章?
取消 删除