
hadoop
大树叶
宠辱不惊,看庭前花开花落;去留无意,望天空云卷云舒。
展开
-
hadoop 提交jar的运行 org.apache.hadoop.util.RunJar
关于hadoop 提交jar的运行如下:https://www.cnblogs.com/admln/p/hadoop2-work-excute-submit.html注意:hadoop 3.x中, org.apache.hadoop.util.RunJar 的临时目录是通过 java.io.tmpdir 传入的,而不是原来的Configuration().get("hadoop.tmp.dir")File tmpDir = new File(System.getProperty(...原创 2020-09-02 21:39:21 · 1501 阅读 · 0 评论 -
hadoop yarn 内存
YARN 内存参数终极详解 https://www.cnblogs.com/princessmeiyi/p/5238215.htmlHadoop MapReduce之作业提交(客户端)配置hadoop.tmp.dir 目录原创 2020-09-02 00:16:57 · 187 阅读 · 0 评论 -
CDH Hadoop HDFS EOFException异常的问题
CDH hadoop HDFS系统中,看了下出现异常的DataNode节点日志018-09-04 23:24:38,446 WARN org.apache.hadoop.hdfs.server.datanode.DataBlockScanner: No block pool scanner found for block pool id: BP-21853433-xxxxxxxxx-14848353795732018-09-05 00:45:13,777 INFO org.apache.hadoo.原创 2020-09-01 00:52:11 · 2484 阅读 · 3 评论 -
hadoop 分发本地的jar文件的过程讲解
一般情况下,我们会使用bai下面的du命令来运行一个hadoop任务: 这个命令实际上是zhi转化成下面的命令来运行的 dao在RunJar中,会读取abc.jar文件,然后尝试从manifest中提取Main-Class作为mainClass,如果manifest中没有指定,则把abc.jar之后的下一个参数当成mainClass。 接下来,RunJar会在本地创建一个临时目录(下面称为workDir,类似/tmp/hadoop-unjar...),然后把abc.jar解压到这个目录中。然后,把wrokD原创 2020-08-13 15:16:13 · 469 阅读 · 0 评论 -
CDH的安装和配置目录
如果采用Cloudera官方建议的安装方式,即Cloudera Manager使用rpm的方式安装,CDH使用Parcel方式安装,会在操作系统内产生多种多样的目录。CDH安装主要使用的目录包括/etc,/usr,/var,/tmp,/opt共5个目录,不同的目录下保存不同的子文件夹以及多种多样不同的文件内容主要涉及比如安装包,配置文件,执行命令脚本等。本文会详细讲解各个目录的作用以及建议规划的大小。下面是比较系统的参考文章,就不一一搬运了1. 深入分析CDH的安装目录...原创 2020-08-13 15:11:53 · 1260 阅读 · 0 评论 -
MapReduce优化: Combiner和Partitioner
在hadoop Mapreduce优化技术中,总会涉及到Combiner和Partitioner,Combiner和Partitioner是用来优化MapReduce的。可以提高MapReduce的运行效率,下面就来谈谈这两种技术及其简单的使用。1 Combiner技术Combiner是一个本地化的reduce操作,它是map运算的后续操作,主要是在map计算出中间文件前做一...原创 2020-01-17 16:14:54 · 495 阅读 · 0 评论 -
Hadoop中mapred包和mapreduce包的区别
Hadoop中mapred包和mapreduce包的区别就是:mapred代表的是hadoop旧API,而mapreduce代表的是hadoop新的API。比如新版MR,则一定要引入下面的package,别弄错了!import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib...原创 2019-08-11 04:19:56 · 979 阅读 · 0 评论 -
在spring boot下如何通过rest 接口 来上传文件 和下载文件 到 hadoop hdfs
本文将用代码来演示在spring boot里面,用hadoop client,通过restful API来上传文件 和下载文件 到 hadoop hdfs。里面有一些代码依赖坑,注意绕行。前提:如果你的代码在windows上运行,去连接linux上的hadoop(2.7.x或者以上),则需要做一下设置。1:下载下面的windows hadoophttps://github.co...原创 2018-08-15 23:57:04 · 5761 阅读 · 0 评论 -
【推荐】hadoop--HA分布式集群部署步骤总结
一、理论基础( 一) HA 概念以及作用 HA(High Available), 高可用性群集,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的...原创 2018-05-10 23:45:09 · 732 阅读 · 0 评论 -
如何修改Hadoop的默认日志级别,还真是麻烦
鄙人使用的Hadoop版本为2.6.4。Hadoop的默认日志级别为INFO,对于百台以上的集群,如果文件操作频繁的话,NameNode会狂打日志,对性能会有一定的影响。我们可以通过http://<namenode:50070>/logLevel在线修改NameNode的日志级别。但是,如果NameNode重启的话,又得重新设置,好麻烦。怎么设置默认的日志级别为WARN呢?Hadoop...原创 2018-04-17 22:34:21 · 3507 阅读 · 0 评论 -
[推荐]Hadoop HA高可用集群搭建(2.7.2)
1.集群规划:主机名IP安装的软件 执行的进程drguo1 192.168.80.149jdk、hadoop NameNode、DFSZKFailoverController(zkfc)、ResourceManagerdrguo2192...原创 2018-04-16 19:10:51 · 271 阅读 · 0 评论 -
基于 CentOS 7.3.x + hadoop v2.9.0 集群的 Hive 2.3.2 的安装与使用
前言安装Apache Hive前提是要先安装hadoop集群,并且hive只需要在hadoop的namenode节点集群里安装即可:需要在namenode上安装,可以不在datanode节点的机器上安装。还需要说明的是,虽然修改配置文件并不需要把hadoop运行起来,但是本文中用到了hadoop的hdfs命令,在执行这些命令时你必须确保hadoop是正在运行着的,而且启动hive的前提也需要had...原创 2018-04-08 11:21:40 · 1323 阅读 · 0 评论 -
Hadoop调优
mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值:2 优化值:mapred.tasktr原创 2016-03-19 22:03:00 · 387 阅读 · 0 评论 -
Hadoop文件系统元数据fsimage和编辑日志edits
在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件:查看源代码打印帮助1current/ 2|-- VERSION 3|-- edits_*转载 2016-03-20 11:19:47 · 430 阅读 · 0 评论 -
Hadoop NameNode元数据相关文件目录解析
在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘:1[wyp@wyphadoop-2.2.0]$ $HADOOP_HOME/bin/hdfs namenode -format 格式化完成之后,将会在$dfs.namenode.name.dir/current目录下如下的文转载 2016-03-20 11:21:01 · 635 阅读 · 0 评论 -
hadoop dfsadmin
dfsadmin是一个多任务的工具,我们可以使用它来获取HDFS的状态信息,以及在HDFS上执行的一系列管理操作。调用方式例如:Hadoop dfsadmin -reportdfsadmin命令详解-report:查看文件系统的基本信息和统计信息。-safeadmin enter | leave | get | wait:安全模式命令。安全模式是NameNode的一种状态,在这原创 2016-03-20 14:24:39 · 1234 阅读 · 0 评论 -
hadoop命令详解
一、用户命令1、archive命令(1).什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文件包含了档案中的文件的文件名原创 2016-03-20 14:39:19 · 496 阅读 · 0 评论 -
处理数据时,hadoop如何找最近的数据节点呢?
首先,namenode维护着当前集群中datanode的拓扑情况(也就是哪个datanode在哪个机架上)。hadoop认为datanode与客户端的距离,最近的是客户端本身(如果客户端与datanode在同一台机器上时),其次是与客户端在同一机架上的datanode,最远的是与客户端在不同机架上的datanode。1)如果客户端在集群中,namenode就可以从数据所在datanod转载 2016-03-20 17:52:51 · 1041 阅读 · 0 评论 -
Hadoop权限管理
1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的优先级,转载 2016-03-21 14:28:55 · 739 阅读 · 0 评论 -
运维经验分享:Hadoop管理员的十个最佳实践
接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使用者,包括转载 2016-03-21 14:52:13 · 729 阅读 · 0 评论 -
CentOS7.3.x + Hadoop 2.9.0 集群搭建实战
前言: 系统安装要求 1: CentOS7 2: Hadoop 2.9.0 3: JDK1.8 说明:Hadoop从版本2开始加入了Yarn这个资源管理器,Yarn并不需要单独安装。只要在机器上安装了JDK就可以直接安装Hadoop,单纯安装Hadoop并不依赖Zookeeper之类的其他东西。官方cluster setup步骤见下链接:https://hadoop.apach...原创 2018-04-16 14:59:21 · 1063 阅读 · 0 评论 -
hadoop节点运行的reduce和map任务数
背景:之所以想确认这个数据,是因为在hadoop的集群系统中,发现各个节点的CPU使用率都不高,并且查看整个集群并发的map和reduce数,都只有6(三台hadoop机器)分析:为了查清楚,为什么tasktracker都只启动了两个map任务和两个reduce任务,查看了hadoop的相关配置说明。具体细节如下: hadoop可以配置每个TaskTracker启动的转载 2016-03-19 19:43:48 · 3950 阅读 · 0 评论