hadoop
文章平均质量分 73
Ebaugh
今日之上达,无非他日之下学也————南怀瑾
展开
-
Hadoop com/fasterxml/jackson/databind/ObjectMapper Error starting NodeManager
2019-11-11 11:20:20,267 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.ResourceLocalizationService: usercache path : file:/data/appcom/hadoop-2.7.4/tmp/nm-local-dir/usercac...原创 2019-11-12 16:55:08 · 653 阅读 · 0 评论 -
hadoop文件误删恢复(官网自带回收站设置)
https://hadoop.apache.org/docs/r2.7.4/hadoop-project-dist/hadoop-common/core-default.xml官网的配置释义Number of minutes after which the checkpoint gets deleted. If zero, the trash feature is disabled. ...原创 2019-11-12 15:49:48 · 511 阅读 · 0 评论 -
hadoop文件误删恢复
HDFS 为我们提供了垃圾箱的功能,也就是当我们执行 hadoop fs -rmr xxx 命令之后,文件并不是马上被删除,而是会被移动到执行这个操作用户的 .Trash 目录下,等到一定的时间后才会执行真正的删除操作。看下下面的例子: $ sudo -uiteblog hadoop fs -rmr /user/iteblog/test.txt Moved: 'hdfs://it...转载 2019-11-12 15:26:26 · 1115 阅读 · 0 评论 -
Hadoop HA 集群动态扩容添加节点机器
因业务需要,对原有集群四台服务器做动态扩容为8台服务器的集群。原有集群为HA配置,所以对集群做节点增加时需要两个重要的步骤要做。1、hdfs-site.xml配置文件的修改。2、同步journal文件到新节点的每一台机器的dfs目录中。(在这之前需要对新节点的集群做同版本的hadoop软件的安装及配置文件的同步,包括hdfs-site.xml文件的修改)3、JournalNode进程及...原创 2019-11-12 14:56:25 · 839 阅读 · 0 评论 -
Hadoop集群异常:两个NameNode全部为StandBy状态
这种情况的出现必须是集群配置了HA。出现两个NameNode都为StandBy的状态说明zookeeper的竞选机制失效。处理这问题有两种尝试方法。(前提要配置好自动故障切换功能)1、手动强制转化某个namenode为active操作:在其中一台namenode上, 执行 hdfs haadmin -transitionToActive --forc...原创 2019-11-12 11:04:32 · 3379 阅读 · 2 评论 -
hadoop Job job = new Job() api弃用deprecated 新的api
hadoop创建Job任务出现api已经被 @deprecatedapi已经被 @deprecated/** * @deprecated Use {@link #getInstance()} */@Deprecatedpublic Job() throws IOException { this(new JobConf(new Configuration()));}新...原创 2019-10-14 15:28:29 · 1136 阅读 · 0 评论 -
hadoop 2.7.2 yarn中文文档—— Capacity Scheduler
yarn框架中调度器的一种-CapacityScheduler,调度器是yarn架构中的resourcemanager的一种可插拔式组件,该组件使得多用户可以共享集群资源,另外一种常用的调度器是Fair Scheduler。再次附上神图:在HOD架构中,每个用户或者用户组拥有私有的集群,这些集群是动态分配的,但是只有有限的弹性,这可能导致集群的效率低下和数据的局部性,组织间共享集群来运行多...转载 2018-11-23 17:30:40 · 540 阅读 · 0 评论 -
yarn资源调度器详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调...转载 2018-11-22 20:05:45 · 263 阅读 · 0 评论 -
mapreduce wordcount
一:问题介绍统计每一个单词在整个数据集中出现的总次数。数据流程: 二:需要的jar包Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.jarhadoop-2.4.1\share\hadoop\hdfs\lib\所有jar包hadoop-2.4.1\share\hadoop\common\hadoop-common-2.4...转载 2019-01-23 14:22:48 · 149 阅读 · 0 评论 -
五节点hadoop HA安装教程
五节点HadoopHA安装教程:Master1 namenode,resourcemanager,nodemanager,datanode,journalnode, DFSZKFailoverControllerMaster2 namenode,resourcemanager,nodemanager,datanode,journalnode, DFSZKFailoverControllerS...转载 2019-03-21 18:20:16 · 145 阅读 · 0 评论 -
HUE讲解
Hue Web应用的架构Hue 是一个Web应用,用来简化用户和Hadoop集群的交互。Hue技术架构,如下图所示,从总体上来讲,Hue应用采用的是B/S架构,该web应用的后台采用python编程语言别写的。大体上可以分为三层,分别是前端view层、Web服务层和Backend服务层。Web服务层和Backend服务层之间使用RPC的方式调用。1Hue整合大数据技术栈架构由于大数据...转载 2019-03-21 18:21:12 · 949 阅读 · 0 评论 -
MapReduce实例WordCount
package xlzx.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.a...原创 2019-09-10 09:07:44 · 151 阅读 · 0 评论 -
Mapreduce去重~Java
package xlzx.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.h...原创 2019-09-10 09:09:19 · 287 阅读 · 0 评论 -
yarn任务调度及架构详解
1. YARN产生背景 MapReduce本身存在着一些问题: 1)JobTracker单点故障问题;如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。 2)JobTracker承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink等。 与旧MapReduce相比,YARN采...转载 2018-11-23 16:41:59 · 2323 阅读 · 0 评论 -
yarn资源调度详解
Fair Scheduler将整个Yarn的可用资源划分成多个资源池,每个资源池中可以配置最小和最大的可用资源(内存和CPU)、最大可同时运行Application数量、权重、以及可以提交和管理Application的用户等。现在一般的大数据平台也都提供了可配置的界面:以TDH为例:default 也就是有一个默认的队列,首先在yarn-site.xml中,将配置参数yarn....转载 2018-11-23 16:40:49 · 1074 阅读 · 0 评论 -
yarn命令详解
概述YARN命令是调用bin/yarn脚本文件,如果运行yarn脚本没有带任何参数,则会打印yarn所有命令的描述。使用: yarn [--config confdir] COMMAND [--loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS]YARN有一个参数解析框架,采用解析泛型参数以及运行类。命令参数 描述--...转载 2018-11-23 16:40:03 · 2539 阅读 · 0 评论 -
Mapreduce
mapreduce简介:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在 分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值原创 2017-04-03 10:11:00 · 490 阅读 · 0 评论 -
Hadoop配置参数详情
Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4。etc/hadoop/core-site.xml参数 属性值 解释 fs.defaultFS NameNode URI hdfs://host:port/ io.file.buffer.size 131...转载 2018-08-14 15:08:45 · 321 阅读 · 0 评论 -
Google大数据三大论文-中文版
http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System中文版_1.0.pdf http://blog.bizcloudsoft.com/wp-content...转载 2018-08-14 17:36:54 · 2147 阅读 · 0 评论 -
eclipse 导入hadoop源码
下载hadoop源码1. 官网下载源码镜像https://archive.apache.org/dist/hadoop/common/hadoop-2.6.0/hadoop-2.6.0-src.tar.gz下载后解压到对应路径 安装JDK(建议使用1.7版本)本人安装1.8。安装mavena. 首先去apache maven的官网上下载...原创 2018-08-27 18:17:34 · 383 阅读 · 0 评论 -
centos7集群时间同步和时间修改
时间修改:date -s "2018-08-18 15:14:23"集群时间同步:机器:10.18.13.3 master 10.18.13.2 slave2 10.18.13.1 slave1root用户每台机器上执行: yum install -y ntp启动服务:安装完毕之后,启动服务#systemctl start ntpd.service设置开机自启动...原创 2018-08-21 15:54:40 · 2417 阅读 · 0 评论 -
linux6和7主机名的修改及防火墙的关闭
linux6系统修改主机名:用户必须为root或者具有root权限ifconfig或者ip addr查看ip1 [root@localhost ~]# vi /etc/sysconfig/network内容修改如下:NETWORKING=yesHOSTNAME=mastercentos7的主机名称修改:hostnamectl set-hostname 主机名2 [ro...原创 2018-08-21 16:01:22 · 411 阅读 · 0 评论 -
批量写数据到hbase导致内存溢出
内存不够,需修改hadoop及hbase参数mapred-site.xml<configuration>增加以下内容<property> <name>mapred.task.java.opts</name> <value>-Xmx4096m</value></property>&原创 2018-09-04 14:30:07 · 1233 阅读 · 0 评论 -
hadoop2.6.5动态增加节点
文章出自:http://my.oschina.net/leoleong/blog/477508 本文主要从基础准备,添加DataNode和添加NodeManager三个部分详细说明在Hadoop2.6.0环境下,如何动态新增节点到集群中。•基础准备在基础准备部分,主要是设置hadoop运行的系统环境•修改系统hostname(通过hostname和/etc/sysconfig/net...转载 2018-09-18 17:02:05 · 306 阅读 · 0 评论 -
集群pid文件丢失解决
集群pid文件丢失找回办法:文件默认保存在tmp文件夹下。丢失后找不到进程id无法停止。重新恢复:在每一台机器tmp下面创建对应的pid文件,内容为进程号。jps[root@master pids]# jps19268 Jps2760 QuorumPeerMain15273 NameNode15593 SecondaryNameNode17257 ThriftServer164...原创 2018-10-11 20:33:12 · 890 阅读 · 0 评论 -
hdfs数据写入hbase
数据类型:aaa,123bbb,234ccc,345hbase中第一列作为rowkey,第二列作为valuepackage cn.xlzx.hbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseCo...原创 2018-09-30 11:28:56 · 461 阅读 · 0 评论 -
NodeManager死亡、内存溢出
1、查看nodemanager节点状态yarn node -list[bigdata@master logs]$ yarn node -list18/10/17 16:01:40 INFO client.RMProxy: Connecting to ResourceManager at master/10.18.13.3:8032Total Nodes:3 Node-...原创 2018-10-17 16:09:38 · 1666 阅读 · 0 评论 -
hadoop yarn内存的管理及分配
理解Yarn的内存管理与分配机制,对于我们搭建、部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考。关于Yarn的详细介绍请参考【Hadoop(3)-Yarn集群 】一、相关配置情况关于Yarn内存分配与管理,主要涉及到ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一...转载 2018-10-31 14:28:02 · 1304 阅读 · 1 评论 -
大数据之Yarn——Capacity调度器概念以及配置
试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可...转载 2018-11-05 11:17:28 · 260 阅读 · 0 评论 -
YARN的资源调度
一、YARN 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hado...转载 2018-11-05 14:41:31 · 379 阅读 · 0 评论 -
HDFS
HDFS设计思想与架构目标:1:硬件错误是常态而不是异常。HDFS被设计为运行在普通硬件上,所以硬件故障时正常的,HDFS可能由成百上千的服务器节点构成,截止2012年百度的单集群规模2800台机器节点,阿里巴巴当时集群规模已超过3200台。每个服务器节点上都存储着文件系统的部分数据,而HDFS的每个组件随时都有可能出现故障。因此,错误检测并快速自动恢复是HDFS的最核心的设计目标。2:流原创 2017-04-02 22:09:04 · 1291 阅读 · 0 评论