Hadoop
文章平均质量分 74
wh62592855
这个作者很懒,什么都没留下…
展开
-
HBase技术介绍
本文转自淘宝技术博客:http://www.searchtb.com/2011/01/understanding-hbase.html=====================HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。转载 2013-05-14 12:26:00 · 5767 阅读 · 0 评论 -
Hive UDAF开发
Hive进行UDAF开发,相对要比UDF复杂一些,不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.hive.serde2.io.DoubleWritable;publi转载 2012-02-26 16:28:32 · 2100 阅读 · 1 评论 -
Hadoop之combiner和partitioner
1. Combiner通常,每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。我们以计算特定key对应值的平均值为例,展示一下combiner的用法:class Mapper method Map(string t, integer r) Emit(string t, int转载 2012-02-26 16:07:38 · 1244 阅读 · 0 评论 -
Hadoop是怎么分块的
可以结合之前转过的一篇文章一起看http://blog.csdn.net/wh62592855/article/details/6583364########################################################hadoop的分块有两部分,其中第一部分更为人熟知一点。 第一部分就是数据的划分(即把File划分成Block),这个是物转载 2012-02-02 09:13:16 · 2064 阅读 · 0 评论 -
使用Sqoop在HDFS和RDBMS之间导数据
SQOOP是一款开源的工具,主要用于在HADOOP与传统的数据库间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoopis a tool designed to transfer data between Hadoop and relational databas原创 2011-10-10 20:44:28 · 3032 阅读 · 0 评论 -
SQOOP的安装配置
SQOOP是一款开源的工具,主要用于在HADOOP与传统的数据库间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databas原创 2011-09-21 17:16:58 · 6640 阅读 · 4 评论 -
hadoop状态分析系统chukwa
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同转载 2011-09-15 09:53:27 · 1516 阅读 · 0 评论 -
HBase与BigTable的比较(翻译)
原文链接: http://www.spnguru.com/?p=165这是对HBase vs. BigTable Comparison一篇翻译,网上很多blog都转载了,虽然是2009年的文章,现在看起来还是有价值的,所以这里再次转载一下。————————————– 毫无理由的分转载 2011-07-14 15:40:45 · 2123 阅读 · 0 评论 -
hadoop distcp 命令
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。 使用方法基本使用方法Di转载 2012-03-31 17:08:27 · 2189 阅读 · 0 评论 -
Hadoop Job Scheduler作业调度器
作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/fb84dd1e3558d8f8e0fe0b8e.htmlHadoop Job SchedulerHadoop的作业调度器,可以以插件的方式加载,常见的作业调度器有三种:默认调度算法转载 2012-04-18 09:16:48 · 1367 阅读 · 0 评论 -
启动zookeeper报错already running as process
今天启动zookeeper的时候报错:[root@hadoop-one zookeeper-3.4.5]# bin/zkServer.sh startJMX enabled by defaultUsing config: /root/zookeeper/zookeeper-3.4.5/bin/../conf/zoo.cfgStarting zookeeper ... already原创 2013-05-13 15:15:50 · 14671 阅读 · 2 评论 -
mapreduce 新旧API 区别
在hadoop 权威指南中有说明,原文如下:The new Java MapReduce APIRelease 0.20.0 of Hadoop included a new Java MapReduce API, sometimes referred to as “Context Objects,” designed to make the API easier to evo转载 2013-03-28 17:00:46 · 1299 阅读 · 0 评论 -
Hadoop中一些采样器的实现
Hadoop中采样是由org.apache.hadoop.mapred.lib.InputSampler类来实现的。InputSampler类实现了三种采样方法:SplitSampler、RandomSampler和IntervalSampler。SplitSampler、RandomSampler和IntervalSampler都是InputSampler的静态内部类转载 2013-03-28 16:59:46 · 1439 阅读 · 1 评论 -
MapReduce:默认Counter的含义
MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析下这些默认Counter的含义,方便大家观察job结果。 我的分析是基于H转载 2012-12-12 10:25:55 · 1324 阅读 · 0 评论 -
hbase通过row key 的前缀查询记录
如果你在hbase表中存在一些特征相同的记录,实际上就可以通过设置Filter的方式进行检索过滤。比如这个特征是前缀相同。ROW COLUMN+CELL转载 2012-10-23 17:38:05 · 18576 阅读 · 3 评论 -
HBase二级索引与Join
二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,?ITHbase, Facebook和官方Coprocessor方案的介绍。理论转载 2012-10-17 11:49:28 · 1658 阅读 · 0 评论 -
配置hadoop 使用fair scheduler调度器
hadoop版本为cloudera hadoop cdh3u3配置步骤为1. 将$HADOOP_HOME/contrib/fairscheduler/hadoop-fairscheduler-0.20.2-cdh3u3.jar拷贝到$HADOOP_HOME/lib文件夹中2. 修改$HADOOP_HOME/conf/mapred-site.xml配置文件转载 2012-09-22 10:00:48 · 3107 阅读 · 0 评论 -
Hadoop回收站trash
本文转自: http://www.cnblogs.com/ggjucheng/archive/2012/04/18/2454683.htmlHadoop回收站trash,默认是关闭的。 习惯了window的同学,建议最好还是把它提前开开,否则误操作的时候,就欲哭无泪了1.修改conf/core-site.xml,增加property> name>fs.trash.转载 2012-08-18 11:53:28 · 1105 阅读 · 0 评论 -
hadoop集群默认配置和常用配置
获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-defau转载 2012-08-18 11:54:13 · 941 阅读 · 0 评论 -
Hadoop MapReduce中如何处理跨行Block和UnputSplit
Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,转载 2011-07-04 14:19:41 · 6139 阅读 · 3 评论 -
hadoop namenode启动过程详细剖析及瓶颈分析
NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.c转载 2011-06-20 20:22:00 · 4406 阅读 · 2 评论 -
HIVE RCFile高效存储结构
HIVE RCFile HADOOP FACEBOOK转载 2011-05-10 17:16:00 · 6812 阅读 · 1 评论 -
The Next Generation of Apache Hadoop MapReduce
The Next Generation of Apache Hadoop MapReduce转载 2011-03-21 19:30:00 · 1253 阅读 · 0 评论 -
hadoop下运行多个SecondaryNameNode的配置
hadoop下运行多个SecondaryNameNode的配置转载 2010-08-02 13:12:00 · 1872 阅读 · 0 评论 -
HADOOP报错Incompatible namespaceIDs
HADOOP Incompatible namespaceIDs原创 2010-07-21 12:37:00 · 26463 阅读 · 10 评论 -
HADOOP中的负载均衡和垃圾回收
HADOOP 负载均衡 垃圾回收转载 2010-07-18 23:12:00 · 4919 阅读 · 2 评论 -
HADOOP如何保证数据的正确性保证
HADOOP如何保证数据的正确性保证转载 2010-07-18 23:11:00 · 3223 阅读 · 0 评论 -
MAPREDUCE计算流程
MAPREDUCE计算流程转载 2010-07-19 00:37:00 · 5128 阅读 · 0 评论 -
Hadoop服务器的错误恢复
Hadoop服务器的错误恢复转载 2010-07-18 22:29:00 · 1609 阅读 · 0 评论 -
Hadoop报错“could only be replicated to 0 nodes, instead of 1”
root@scutshuxue-desktop:/home/root/hadoop-0.19.2# bin/hadoop fs -put conf input10/07/18 12:31:05 INFO hdfs.DFSClient: org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /user/root/input/log4j.properties could only be replicated to 0 nodes, in原创 2010-07-18 13:00:00 · 20433 阅读 · 5 评论 -
Hive - 运用于hadoop的拍字节范围数据仓库
Hive - 运用于hadoop的拍字节范围数据仓库转载 2011-05-17 20:44:00 · 5484 阅读 · 0 评论 -
hive中的Order By
hive中的Order By转载 2011-05-26 22:24:00 · 3253 阅读 · 0 评论 -
HBASE安装过程
环境hbase-0.90.3hadoop-0.20.2一开始我用的是hadoop-0.21.0,搞了半天搞不好,日志里面报错说连接的时候出错2011-06-15 16:05:32,239 FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.java.io.IOE原创 2011-06-15 18:31:00 · 6085 阅读 · 5 评论 -
使用MYSQL作为HIVE的METASTORE
先确保你已经成功安装了HIVE和MYSQL在hive-site.xml中添加如下内容,指定METASTORE的地址以及连接方式 javax.jdo.option.ConnectionURL jdbc:mysql://10.20.151.10:3306/hive?characterEncoding=UTF-8 JDBC connect string原创 2011-06-08 12:34:00 · 8522 阅读 · 3 评论 -
hadoop+hive+fuse环境搭建
hadoop hive fuse dfs_fuse原创 2011-06-01 12:09:00 · 2423 阅读 · 0 评论 -
hive中的bucket table
hive中的bucket table转载 2011-05-26 23:14:00 · 3437 阅读 · 0 评论 -
HIVE中的自定义函数
HIVE中的自定义函数转载 2011-05-26 23:04:00 · 6933 阅读 · 0 评论 -
hive中的null值
hive中的null值转载 2011-05-26 22:30:00 · 5231 阅读 · 0 评论 -
hive中的sort by
hive中的sort by转载 2011-05-26 22:23:00 · 3881 阅读 · 0 评论 -
hive中的外表EXTERNAL TABLE
hive中的外表EXTERNAL TABLE转载 2011-05-26 23:15:00 · 3049 阅读 · 1 评论