![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 94
笔尖的痕
spark、hadoop,数据仓库,实时计算
展开
-
hadoop-2.3.0-cdh5.1.0完全分布式集群配置及HA配置(resourcemanager.ha)
一、安装前准备:操作系统:CentOS 6.5 64位操作系统环境:jdk1.7.0_45以上,本次采用jdk-7u55-linux-x64.tar.gzmaster01 10.10.2.57 namenode 节点master02 10.10.2.58 namenode 节点slave01:10.10.2.173 datanode 节点slave0转载 2014-10-13 01:48:12 · 1231 阅读 · 0 评论 -
Hadoop-2.2.0中文文档—— Common - 服务层认证
目的此文档描述了如何为Hadoop配置和管理 Service Level Authorization 。预备条件确保已经安装Hadoop,配置和设置都正确了。更多细节,请看:* 首次使用者的单节点设置 * 大的、分布式集群的集群设置。概览Service Level Authorization 是一个必要的初始认证机制,其确保客户端连接到一个有必要的、预配转载 2014-11-19 15:50:35 · 718 阅读 · 0 评论 -
HDFS Federation客户端(viewfs)配置攻略
大家都知道,apache hadoop的一个关键思想就是移动计算比移动数据更廉价。所以只要可能,我们就乐忠移动计算到数据地方。因此,HDFS通常使用许多的本地读,在本地机器构造读对象读出数据。最初,hdfs本地读其实和远程读使用的同一种方式:client端通过TCP 连接DN,并通过DataTransferProtocol传输数据。该方法简单,但是有一些不好的地方。例如,DN需要维护一转载 2014-10-16 18:05:04 · 1217 阅读 · 0 评论 -
Hadoop 2.0 NameNode HA和Federation实践
一、为什么需要HA和Federation单点故障在Hadoop 2.0之前,也有若干技术试图解决单点故障的问题,我们在这里做个简短的总结Secondary NameNode。它不是HA,它只是阶段性的合并edits和fsimage,以缩短集群启动的时间。当NameNode(以下简称NN)失效的时候,Secondary NN并无法立刻提供服务,Secondary NN转载 2014-10-21 14:32:47 · 764 阅读 · 0 评论 -
TableExistsException: hbase:namespace
准备记录下我在学习和工作中遇到的hbase报错信息及解决方案。 描述:HMaster启动之后自动挂掉,并且master的log里出现“TableExistsException: hbase:namespace”字样,很可能是更换了Hbase的版本过后zookeeper还保留着上一次的Hbase设置,所以造成了冲突。 解决:zookeeper还保留着上一次的Hbase转载 2014-11-02 14:54:04 · 2589 阅读 · 0 评论 -
hadoop namenode启动过程详细剖析及瓶颈分析
NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时转载 2014-12-18 03:03:06 · 1231 阅读 · 0 评论 -
深入理解Hadoop集群和网络
本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的服务器角色Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce转载 2014-12-17 03:21:20 · 829 阅读 · 0 评论 -
Ubuntu下配置Hadoop 2.3.0单节点模式
以下操作在32位Ubuntu 12.04版本下测试通过,64位系统配置64位版本Hadoop请自行搜索源代码编译相关内容。--- 分隔线神圣不可侵犯 -------------------------------------------------------------安装Ubuntu安装过程略……不想折腾的,直接在虚拟机里跑一跑好了……在 Ubuntu 下创建转载 2014-12-23 01:25:22 · 680 阅读 · 0 评论 -
Hadoop计算能力调度器应用和配置
需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO,但是也有转载 2014-12-26 15:00:37 · 895 阅读 · 0 评论 -
Hadoop Streaming框架使用(三)
前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限,并没有介绍其中的高级使用方法,但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明,希望能给大家一些启发。 1 使用cacheFile分发文件 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理,,可以使用-cacheFile hdfs://host:por转载 2014-12-28 23:23:20 · 668 阅读 · 0 评论 -
hdfs namenode -format报错
master.hadoop.com krb5kdc[1080](info): TGS_REQ (5 etypes {17 16 23 1 3}) 192.168.152.160: ISSUE: authtime 1413309580, etypes {rep=17 tkt=18 ses=17}, root/master.hadoop.com@HADOOP.COM for root/slaver2.原创 2014-10-15 02:01:30 · 1065 阅读 · 0 评论 -
Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort
简介可插入的 shuffle 和 sort 功能,允许在shuffle 和 sort 逻辑中用可选择的实现类替换。这个情况的例子是:用一个不是HTTP的应用协议,如RDMA来 shuffle 从Map节点中到Reducer节点的数据;或者用自定义的允许 Hash聚合和Limit-N查询的算法来代替sort逻辑。重要: 可插入的 shuffle sort 功能是实验性的、不稳定。这意味着提转载 2014-11-19 11:50:07 · 817 阅读 · 0 评论 -
Apache Twill—YARN上应用程序开发包
尽管YARN自带的编程API已经得到了极大的简化,但从头开发一个YARN应用程序仍是一件非常困难的事情。在YARN上编写一个应用程序,你需要开发Client和ApplicationMaster两个模块,并了解涉及到的几个协议的若干API和参数列表,其中ApplicationMaster还要负责资源申请,任务调度、容错等,总之,整个过程非常复杂。Apache Twill(官方首页:A转载 2014-11-17 23:01:28 · 1365 阅读 · 0 评论 -
Hadoop-2.2.0中文文档——MapReduce 下一代 -——集群配置
目的这份文档描述了如何安装、配置和管理从几个节点到有数千个节点的Hadoop集群。玩的话,你可能想先在单机上安装。(看单节点配置)。准备从Apache镜像上下载一个Hadoop的稳定版本。安装安装一个Hadoop集群,一般包括分发软件到所有集群中的机器上或者是安装RPMs。一般地,集群中的一台机器被唯一地设计成NameNode,另一台机器被设置成Reso转载 2014-11-18 01:48:02 · 749 阅读 · 0 评论 -
Hadoop-2.2.0中文文档—— Shell命令
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认schem转载 2014-11-18 01:59:13 · 692 阅读 · 0 评论 -
Hadoop-2.2.0中文文档——MapReduce--写YARN应用
概念和流普遍的概念是一个 '一个应用提交客户端' 提交一个 '应用' 给 YARN资源管理器。客户端和服务端用 'ApplicationClientProtocol' 通信,若需要会首次通过ApplicationClientProtoco#getNewApplicationl获取一个新的 'ApplicationId' ,然后通过ApplicationClientProtocol#subm转载 2014-11-18 14:00:22 · 724 阅读 · 0 评论 -
Hadoop-2.2.0中文文档—— MapReduce 下一代--容量调度器
目的这份文档描述 CapacityScheduler,一个为Hadoop能允许多用户安全地共享一个大集群的插件式调度器,如他们的应用能适时被分配限制的容量。概述CapacityScheduler 被设计成以分享的、多用户集群运行 Hadoop 应用并最大化利用集群的机制。传统上,每一个组织都会有它自己的私有电脑资源,在顶峰或接近顶峰状态有充足的容量来面对组织的SLA转载 2014-11-18 14:53:29 · 660 阅读 · 0 评论 -
Hadoop2下Hadoop Federation、Automatic HA、Yarn完全分布式集群搭建
Hadoop1玩了有不少时间了,随着系统上线,手头事情略微少些。So,抓紧时间走通了一遍Hadoop2下的Hadoop联盟(Federation)、Hadoop2高可用(HA)及Yarn的完全分布式配置,现记录在博客中,互相交流学习,话不多说,直入正文。非常感谢摸索过程中受益颇深的网络资源,分享让技术更美好。哈哈本文采用倒叙手法,先将最终结果呈现出来,如下:结果展现一,通过jps查看集群守转载 2014-10-16 17:31:01 · 1162 阅读 · 0 评论 -
Hadoop-2.2.0中文文档—— MapReduce 下一代 - Encrypted Shuffle
简介 Encrypted Shuffle capability (加密洗牌功能?)允许用HTTPS 和 可选的客户端验证 (也称作双向的 HTTPS, 或有客户端证书的 HTTPS) 去加密 MapReduce shuffle.它包括:在HTTP 和 HTTPS 之间绑定 shuffle 的一个 Hadoop 配置用来指定 keystore 和 truststore 属性的Hado转载 2014-11-19 11:34:16 · 855 阅读 · 0 评论 -
Hadoop-2.2.0中文文档—— Common - CLI MiniCluster
目的使用 CLI MiniCluster, 用户可以简单地只用一个命令就启动或关闭一个单一节点的Hadoop集群,不需要设置任何环境变量或管理配置文件。 CLI MiniCluster 同时启动一个 YARN/MapReduce 和 HDFS 集群。这对那些想要快速体验一个真实的Hadoop集群或是测试依赖明显的Hadoop函数的非Java程序 的用户很有用。Hadoop转载 2014-11-19 11:55:18 · 728 阅读 · 0 评论 -
Hadoop-2.2.0中文文档—— Common - 超级用户模拟别的用户
简介此文档描述了一个超级用户如何在安全的方式下以另一用户的名义提交作业或访问hdfs。Use Case下一部分描述的的代码示例对此用户用例是可用的。一个用户名为'super'的超级用户想要以另一用户joe的名义提交作业或访问hdfs。超级用户有kerberos证书但是用户joe并没有。任务要求以用户joe的角色运行并且namenode上的文件访问也需要由joe完成。需要转载 2014-11-19 15:38:42 · 859 阅读 · 0 评论 -
Hadoop Streaming 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib转载 2014-12-28 14:21:16 · 883 阅读 · 0 评论 -
操作系统级别对Hadoop性能优化
由于Hadoop自身的一些特点,它只适合用于将Linux作为操作系统的生产环境。在实际应用场景中,管理员适当对Linux内核参数进行调优,可在一定程度上提高作业的运行效率,比较有用的调整选项如下。一、增大同时打开的文件描述符和网络连接上限 在Hadoop集群中,由于涉及的作业和任务数目非常多,对于某个节点,由于操作系统内核在文件描述符和网络连接数目等方面的限制,大量的文件读写操作转载 2015-03-19 01:58:46 · 1581 阅读 · 0 评论 -
hadoop JOB的性能优化实践
使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到hadoop集群,操作系统,任务调度策略这些方面的问题。hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行:1.hadoop配置2.程序代码程序代码包括的方面很多:job设计,算法,数据结构,代码编写。转载 2015-03-19 02:21:59 · 1209 阅读 · 0 评论 -
HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考Hbase性能调优1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大转载 2015-04-29 22:22:27 · 1806 阅读 · 0 评论 -
一例 Hive join 优化实战
1、需求2、非等值 join 问题3、优化:reduce side join VS Cartesian product4、改写非等值 join:union all5、优化:map side join6、优化无极限:开启 parallel 和 控制 reduce 个数7、最后的问题:8、关于 hive 中的 笛卡尔集( full Cartesian product )转载 2015-04-30 00:25:58 · 5057 阅读 · 0 评论 -
Hbase设计以及优化
1、表的设计1.1、Column Family由于Hbase是一个面向列族的存储器,调优和存储都是在列族这个层次上进行的,最好使列族成员都有相同的"访问模式(access pattern)"和大小特征;在一张表里不要定义太多的column family。目前Hbase并不能很好的处理超过2~3个column family的表。因为某个column family在flush的时候转载 2015-07-02 20:17:00 · 424 阅读 · 0 评论 -
Hadoop开发常用的InputFormat和OutputFormat
在用hadoop的streaming读数据时,如果输入是sequence file,如果用“-inputformat org.apache.hadoop.mapred.SequenceFileInputFormat”配置读的话,读入的数据显示的话为乱码,其实是因为读入的还是sequence file格式的,包括sequencefile的头信息在内.改为“inputformat org.apache转载 2015-06-13 20:54:11 · 1108 阅读 · 0 评论 -
MapReduce TotalOrderPartitioner 全局排序
我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序,这种排序机制保证了每一个reducer局部有序,Hadoop 默认的partitioner是HashPartitioner,它依赖于output key的hashcode,使得相同key会去相同reducer,但是不保证全局有序,如果想要获得全局排序结果(比如获取top N, bottom N转载 2015-06-13 20:20:44 · 671 阅读 · 0 评论 -
BloomFilter 简介及在 Hadoop reduce side join 中的应用
1、BloomFilter能解决什么问题? 以少量的内存空间判断一个元素是否属于这个集合, 代价是有一定的错误率 2、工作原理 1. 初始化一个数组, 所有位标为0, A={x1, x2, x3,…,xm} (x1, x2, x3,…,xm 初始为0) 2. 将已知集合S中的每一个数组, 按以下方式映射到A中 2.0转载 2015-06-13 20:22:06 · 972 阅读 · 1 评论 -
Scala java maven 混合开发 pom配置
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org原创 2015-07-13 00:21:40 · 1898 阅读 · 0 评论 -
Spark as a Service之JobServer初测
spark-jobserver提供了一个用于提交和管理Apache Spark作业(job)、jar文件和作业上下文(SparkContext)的RESTful接口。该项目位于git(https://github.com/ooyala/spark-jobserver),当前为0.4版本。特性“Spark as a Service”: 简单的面向job和context管理的REST接转载 2015-07-13 00:25:37 · 1449 阅读 · 0 评论 -
解析大数据基准测试——TPC-H or TPC-DS
随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Raghunath Nambiar进一步认为大数据还面临Value(价值)和Veracity(精确)的挑战。如何客观地比较不转载 2015-11-18 12:12:34 · 1131 阅读 · 0 评论 -
hive性能调优
limit 限制调整-- 因为使用 limit 语句时候,是先执行整个查询语句,然后再返回部分结果的set hive.limit.optimize.enable=true;set hive.limit.row.max.size=10000;set hive.limit.optimize.limit.file=10;2.JOIN 优化。。。转载 2015-04-29 22:03:52 · 1943 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的 部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存 buffer(MapOut转载 2014-12-25 18:27:11 · 1021 阅读 · 0 评论 -
Hadoop平台优化综述
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是转载 2015-03-19 02:29:52 · 847 阅读 · 0 评论 -
hadoop分布式平台优化
Hadoop性能调优不仅是自身的调优,还应包括底层硬件、操作系统等。下面逐一介绍:1、底层硬件Hadoop采用的是master/slave的架构,master(resourcemanager或namenode)要维护元数据信息、调度等,任务量及重要性远大于slave,因此尽量将master高配置。2、操作系统1)增大最大文件描述符的数量和网络连接上限(作用明显)转载 2015-03-19 02:33:24 · 807 阅读 · 0 评论 -
腾讯大规模Hadoop集群实践 [转程序员杂志]
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB;每日作业数100多万,每转载 2015-03-19 02:53:01 · 729 阅读 · 0 评论 -
NodeManager启用cgroup资源隔离(Hadoop2.3)
1、准备container-executor.cfg文件$ cat ${HADOOP_HOME}/etc/hadoop/container-executor.cfgyarn.nodemanager.linux-container-executor.group=users 注意:'users'来自$ groups 返回的第一个组从根目录到container-executor.cfg的us转载 2015-03-19 23:37:01 · 2455 阅读 · 0 评论 -
Yarn的JVM重用功能——uber
首先,简单回顾一下Hadoop 1.x中的JVM重用功能:用户可以通过更改配置,来指定TaskTracker在同一个JVM里面最多可以累积执行的Task的数量(默认是1)。这样的好处是减少JVM启动、退出的次数,从而达到提高任务执行效率的目的。 配置的方法也很简单:通过设置mapred-site.xml里面参数mapred.job.reuse.jvm.num.tasks的值。该值默认是1,意味转载 2015-03-20 01:03:40 · 2427 阅读 · 0 评论