hadoop那点事
文章平均质量分 53
slx_2011
这个作者很懒,什么都没留下…
展开
-
Druid源码分析--整体结构
代码版本0.9.1项目地址https://github.com/druid-io/druid.git代码整体结构api 核心接口层,整个代码库的最底层common 公共方法,依赖apiexamples 实例indexing-hado原创 2017-02-24 16:28:09 · 4890 阅读 · 0 评论 -
presto初探【0.52版本】
prestohttp://www.dw4e.com/?p=141http://blog.csdn.net/u012417026/article/details/14516631confhadoop@yard02:~/bigdata/presto-server-0.52/$ tar zxvf presto-server-0.52.tar.gzhadoop@yard02:~/bi转载 2014-09-05 14:18:41 · 1163 阅读 · 0 评论 -
couchbase 与 redis的横向对比
couchbase 与 redis的横向对比发表回复 COUCHBASEREDIS类别NoSQLNoSQL网站www.couchbase.comredis.IO许可证GFDLApache许可证2Couchbase公司企业许可协议:免费版Couchbase公转载 2014-08-01 15:43:43 · 4410 阅读 · 0 评论 -
hive小文件合并
转自:http://blog.csdn.net/yfkiss/article/details/8590486当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个转载 2014-07-10 16:22:19 · 626 阅读 · 0 评论 -
hadoop计数器(一)
转自:http://yjplxq.blog.51cto.com/4081353/1330128org.apache.hadoop.mapreduce.FileSystemCounter FILE_BYTES_READFILE_BYTES_WRITTENFILE_READ_OPSFILE_LARGE_READ_OPSFILE_WRITE_OPSHDFS_B转载 2014-07-10 18:48:18 · 1000 阅读 · 0 评论 -
hadoop计数器(二)
MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析下这些默认Counter的含义,方便大家观察job结果。 我的分析是基于H原创 2014-07-10 18:56:40 · 613 阅读 · 0 评论 -
Hadoop-0.20.2公平调度器算法解析
1. 目的本文描述了hadoop中的公平调度的实现算法,公平调度器是由facebook贡献的,适合于多用户共享集群的环境的调度器,其吞吐率高于FIFO,论文参见参考资料[1]。本文分析的Hadoop版本是0.20.2,在新版本(0.21.0)中,公平调度算法已经有了改进与增强。本文组织结构如下:1)目的 2)公平调度介绍 3)公平调度算法分析 4)新版hadoop中公平调度转载 2014-05-30 11:09:48 · 807 阅读 · 0 评论 -
datanode进程宕掉解决方案
异常描述:hadoop跑一段时间以后几台datanode无故宕掉,chakna异常分析:解决方案:原创 2014-06-12 21:52:26 · 2298 阅读 · 0 评论 -
HDFS超租约异常总结(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException)
异常信息:13/09/11 12:12:06 INFO hdfs.DFSClient: SMALL_BUFFER_SIZE is 512org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/put_dir/20转载 2014-06-12 19:52:00 · 3062 阅读 · 0 评论 -
hadoop公平调度配置详解(二)fair-scheduler.xml篇
配额文件为每一个资源池配置最小共享资源、运行作业限制、权重和抢占超时时间。HADOOP_HOME/conf/fair-scheduler.xml.template提供了一个示例例子。配额文件可以包含下列类型的元素:pool元素,配置各个资源池。它们可能包含下列子元素: 。minMaps和minReduces,设置资源池最小共享的任务时间片。 。maxRunningJ原创 2014-05-30 10:31:43 · 4424 阅读 · 0 评论 -
hadoop公平调度配置详解(一)mapred-site.xml篇
可以在mapred-site.xml中设置下面的参数来影响公平调度器的行为:基本参数属性名描述mapred.fairscheduler.allocation.file指定一个XML文件的绝对路径,该文件包含了每个资源池的最小共享资源、每资源池和每用户的并发运行作业数和抢占超时时间。如果没有设置这个属性,这些特性将不会被使用。配原创 2014-05-30 10:13:14 · 3191 阅读 · 0 评论 -
hadoop异常记录,job长期处于pending状态,资源空闲不被使用
异常描述:原创 2014-05-30 10:07:46 · 7389 阅读 · 0 评论 -
hive异常处理
一、异常描述二、异常处理三、原创 2014-05-08 19:18:58 · 1256 阅读 · 0 评论 -
pdsh简介
快速了解这个小工具作用就是批量在集群节点执行命令,比如我想在 node_1至node_9上执行hostname命令: /usr/bin/pdsh -R ssh -w node_[1-9] hostname -R:指定传输方式,默认为rsh,本例为ssh,如果希望ssh传输需要另行安装pdsh-rcmd-ssh,如果希望ssh无密码访问需要提前配置好转载 2014-04-18 16:25:38 · 1998 阅读 · 0 评论 -
hadoop2.6.0版本集群环境搭建
一、环境说明1、机器:一台物理机 和一台虚拟机2、linux版本:[spark@S1PA11 ~]$ cat /etc/issueRed Hat Enterprise Linux Server release 5.4 (Tikanga)3、JDK: [spark@S1PA11 ~]$ java -versionjava version "1.6.0_27"J转载 2015-03-26 17:19:40 · 821 阅读 · 0 评论 -
unable to load native-hadoop library问题细谈
根据大家常用的方式,重新编译了hadoop源码,并替换lib/native下的文件,发现还是报waring,决定细看一下首先打开debug日志,查看问题的根源,hadoop-env.sh 添加export HADOOP_ROOT_LOGGER=DEBUG,console 日志提示glibc 2.14 not found,可能这个是问题的根源吧,遂查看glibc版本,确实很低,决定安原创 2015-03-27 11:14:55 · 990 阅读 · 0 评论 -
编译安装Ambari
1.1 需要安装的工具1.1.1 安装JDK输入命令[root@bigData-02 ~]# java –versionjava version "1.7.0_51"Java(TM) SE Runtime Environment (build 1.7.0_51-b13)Java HotSpot(TM) 64-Bit Server VM (bu原创 2015-04-14 10:07:32 · 1445 阅读 · 0 评论 -
ambari编译前环境准备
原文地址:https://cwiki.apache.org/confluence/display/AMBARI/Ambari+Development1/安装gityum install git2/下载ambari源码git clone https://git-wip-us.apache.org/repos/asf/ambari.gitcd ambari3翻译 2015-04-14 10:52:39 · 1223 阅读 · 0 评论 -
MR1与MR2(yarn)对比
原地址:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)转载 2015-04-03 17:39:06 · 7726 阅读 · 0 评论 -
hadoop工作原理
1.Job类初始化JobClient实例,JobClient中生成JobTracker的RPC实例,这样可以保持与JobTracker的通讯,JobTracker的地址和端口等都是外部配置的,通过Configuration对象读取并且传入。2.JobClient提交作业。3.JobClient生成作业目录。4.从本地拷贝MapReduce的作业jar文件(一般是自己写的程序转载 2015-04-03 17:37:13 · 954 阅读 · 0 评论 -
hive统计分析窗口函数实战
窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数说明RANK()返回数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK()返回数据项在分组中的排名,排名相等会在名原创 2015-04-01 15:07:41 · 3592 阅读 · 0 评论 -
spark简介
转自:http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再转载 2015-04-03 17:50:14 · 878 阅读 · 0 评论 -
开源日志收集软件fluentd 转发(forward)架构配置
需求:通过开源软件fluentd收集各个设备的apache访问日志到fluentd的转发服务器中,然后通过webHDFS接口,写入到hdfs文件系统中。软件版本说明:hadoop版本:1.1.2fluentd版本:1.1.21测试环境说明:node29服务器上安装了apache,以及fluentd,作为fluentd的客户端;转载 2015-03-30 14:32:29 · 3102 阅读 · 0 评论 -
linux使用supervisor监控fluentd进程
1/配置[program:td-agent]command=td-agent -o /var/log/td-agent/td-agent.logprocess_name=%(program_name)sautostart=trueautorestart=truestartsecs=10[inet_http_server] ; inet (TCP)原创 2015-03-30 15:55:02 · 1011 阅读 · 0 评论 -
linux下使用supervisor监控应用程序
1 应用场景应用程序需要24小时不间断运行。这时可使用supervisor监控应用程序的进程。当发生应用程序内部错误退出、进程被杀死等情况时,自动重启应用程序。2 supervisorsupervisor由python写成, 简单好用。官方网站 http://supervisord.org,上面有详细的指南文档。3 安装supervisor转载 2015-03-30 15:46:27 · 2133 阅读 · 0 评论 -
利用fluentd构建分布式日志管理系统
如何有效地收集和管理大量服务器的日志一直是企业很头疼的一个问题,部分企业应用shell脚本来管理,部分企业基于hadoop来开发自己的日志管理系统,第一种管理成本巨大,需要大量的人力来维护脚本的正常运行,第二种研发成本高昂,那么如何才能降低这两方面的成本呢。下面我们来介绍fluentd这种分布式日志管理系统,希望大家在了解之后,能得出自己的答案。首先我们需要一台装有mongodb的服务器用转载 2015-03-30 14:32:07 · 1802 阅读 · 0 评论 -
hadoop日志收集解决方案--fluentd配置文件
type tailformat apachepath /Data/logs/nginx/access.logpos_file /var/log/td-agent/nginx.postag nginx.accesspos_file建议设置,方便fluentd挂掉以后,继续传递,确保数据完整性type copytype filepath /var/log原创 2015-03-30 15:04:30 · 1810 阅读 · 0 评论 -
hadoop2.6.0压缩方式lzo部署安装
Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。LZO(LZO是Lempel-Ziv-Oberhumer的缩写)是一种高压缩比和解压速度极快的编码,它的特点是解压缩速度非常快,无损压缩,压缩后的数据能准确还原,lzo是基于block分块的,允许数据被分解成chunk,能够被并原创 2015-03-30 11:42:15 · 3407 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library解决方案
在运行hadoop的时候,出现警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable原因:Apache提供的hadoop本地库是32位的,而在64位的服务器上就会有问题,原创 2015-03-26 17:58:27 · 1358 阅读 · 0 评论 -
动态调整配置
转自:http://blog.csdn.net/liangliyin/article/details/6557248对于Hadoop集群这样的分布式系统,有些参数是需要经常调整的,但是又不想重启daemon进程。原因很明显,重启任何一个daemon进程都是要付出代价的。例如重启master相当于停服务,集群直接不可用;重启TaskTracker会导致部分task失败重跑,延长j转载 2014-04-18 13:41:51 · 1233 阅读 · 0 评论 -
hadoop容错性分析
转自:http://dongxicheng.org/mapreduce/hadoop-mapreduce-failure-tolerance/本文讲述Hadoop-0.21.0 以及以上版本中MapReduce的容错机制。包括JobTracker,TaskTracker,Job,Task,Record等级别的容错机制。1. JobTracker暂无容错机制,挂掉转载 2014-04-18 13:45:05 · 1003 阅读 · 0 评论 -
hive结果及中间结果压缩
转自:hadoop中常见的压缩格式及特性如下:压缩格式工具算法文件扩展名多文件可分割性DEFLATE*无DEFLATE.deflate不不GzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是,在文件范围内转载 2014-04-18 13:43:51 · 2832 阅读 · 0 评论 -
hadoop抛出failed to report status for 600 seconds异常
今天在执行hadoop distcp hdfs:/* s3n:/*命令时,抛出failed to report status for 600 seconds异常,异常分析:由于执行合并索引操作时间较长,所以超过了600秒的时间限制,把这个值改高点就不会报错了解决方案:修改mapred-site.xmlproperty> name>mapred.task.ti原创 2014-02-17 15:37:14 · 2819 阅读 · 0 评论 -
Distcp使用手册
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。 使用方法基本使用方法Di转载 2014-02-17 17:18:26 · 927 阅读 · 0 评论 -
hadoop与s3之间互相传输文件
hadoop到s3hadoop distcp hdfs:/user/hive/data/SearchRecord/2014-02-16 s3n://log.voga360.com/hadoop/user/hive/data/SearchRecord/2014-02-16 需要在core-site.xml中配置好fs.s3n.awsAccessKeyId和fs.s3n.awsSecret原创 2014-02-17 15:42:21 · 8198 阅读 · 3 评论 -
hadoop异常处理之map卡住不动
异常描述:在执行MR是map卡住不动了,14/02/27 11:12:55 INFO mapred.JobClient: map 40% reduce 0%异常分析:查看后台日志抛出no space 异常,查看某台datanode,磁盘打满了解决方案,迅速清理一些旧的日志释放空间ps:集群搭建的时候,尽量保持机器资源均衡,否则会出现木桶效应,我原创 2014-02-27 14:30:35 · 4635 阅读 · 0 评论 -
hbase异常处理之ERROR security.UserGroupInformation
hbase版本: hbase-0.94.6-cdh4.3.2hadoop版本:cdh4.3.2异常描述:12/04/10 19:23:15 ERROR security.UserGroupInformation: PriviledgedActionException as:anchauhan (auth:SIMPLE) cause:java.io.IOExcepti原创 2014-02-27 13:33:16 · 1381 阅读 · 0 评论 -
hive理解streamtable使用
今天看别人的博客,发现streamtable这个东西,作者描述是:将大表放在JION的右边,这是就需要指定使用/*+ STREAMTABLE(..) */:hive> SELECT /*+ STREAMTABLE(b) */ a.val, b.val, c.val FROM a JOIN b > ON (a.key = b.key1) JOIN c将大表放在JION的右边原创 2014-02-27 13:27:19 · 6559 阅读 · 1 评论 -
hbase自带压力测试
今天使用hbase自带的压力测试,压了一下我们的hbase集群集群配置:master 8cpu*32G + 3台8cpu*16G参数配置,修改了zookeeper和hdfs的配置外,其他保持默认测试方式:hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1hbase o原创 2014-02-26 21:38:31 · 5092 阅读 · 1 评论 -
hive查询优化总结
转自:http://blog.csdn.net/azhao_dn/article/details/7707811标红的部分,是我在作者的基础上修改的。一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边转载 2014-02-27 10:51:56 · 914 阅读 · 0 评论