![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 81
iteye_3156
这个作者很懒,什么都没留下…
展开
-
hadoop,hbase,zookeeper错误日志及部分解决办法(1)
没有全部遇到过。也没有经过测试。收集至此,以备以后遇到问题作为参考之用。hadoop-0.20.2 & hbase-0.90.1集群启动错误问题解决:问题如下:org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientProtocol version mis...原创 2011-12-29 10:32:00 · 208 阅读 · 0 评论 -
云框架Hadoop之部署Hive
标签:Hive 云框架 Hadoop 部署 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://jeffxie.blog.51cto.com/1365360/305472 <!--正文 begin--> 数据库是面向事务的设计,数据仓库是面向主题设计的。数据库是为捕获数据而设计,数据仓库是为分析数据而设...原创 2012-04-12 15:47:19 · 120 阅读 · 0 评论 -
HDFS+MapReduce+Hive+HBase十分钟快速入门
1. 前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。2. Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:成员名用途Hadoop CommonHadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文...原创 2012-04-15 16:19:15 · 70 阅读 · 0 评论 -
hadoop,hbase,hive安装全记录
操作系统:CentOS 5.5Hadoop:hadoop-0.20.203.0jdk1.7.0_01namenode主机名:master,namenode的IP:10.10.102.15datanode主机名:slave1,datanode的IP:10.10.106.8datanode主机名:slave2,datanode的IP:10.10.106.9一、hadoop 安装1、建立用户user...原创 2012-04-26 10:09:30 · 61 阅读 · 0 评论 -
Hive与HBase的整合
开场白:Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类 (Hive Storage Handlers), 大致意思如图所示:口水: 对 hive_hbase-handler.jar 这个东东还有点兴趣,有空来磋磨一下。一、2个注意事项:1、需要的软件有 Hadoop、Hive、Hbase、...原创 2012-04-28 10:48:31 · 123 阅读 · 0 评论 -
编写hive udf函数
udf编写入门大写转小写package com.afan;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFLower extends UDF{ public Text evaluate(final Text s){ if (null == s){...原创 2012-05-04 19:13:32 · 90 阅读 · 0 评论 -
Hive HBase 整合(中文)
hive hbase整合,要求比较多,1.hive的得是0.6.0(当前最新的版本) 2.hive本身要求hadoop的最高版本是hadoop-0.20.2 3.要求hbase的版本是0.20.3,其他版本需要重新编译hive_hbase-handler 但是新版的hbase(0.90)变动特别大,根本无法从编译。这点比较恶心,hbase目前升级比较快,当前是0.90(从0.20.6直接跳到0.8...原创 2012-05-07 09:07:06 · 66 阅读 · 0 评论 -
Hive-0.8.1索引的实验
先说一个0.7.1和0.8.1的Metastore不兼容一。外部表的索引。因为怕麻烦,就继续用之前的table02的数据,在new meta里也叫table02,不过改成了external表。最后的结论是Hive的索引也是支持外部表的。建立索引,运行。还是6个mapper,不行。二。建立内部表CTAS from table02,建立一个内部表table03; 重点是,换...原创 2012-05-19 09:29:02 · 102 阅读 · 0 评论 -
HFile详解-基于HBase0.90.5
1. HFile详解 HFile文件分为以下六大部分 序号名称描述1数据块由多个block(块)组成,每个块的格式为:[块头] + [key长] + [value长] + [key] + [value]。2元数据块元数据是key-value类型的值,但元数据快只保存元数...原创 2012-05-25 14:25:18 · 113 阅读 · 0 评论 -
HBase HFile与Prefix Compression内部实现全解--KeyValue格式
1. 引子 HFile (HBase File)是HBase使用的一种文件存储格式的抽象, 目前存在两种版本的HFile: HFile V1和HFile V2 HBase 0.92之前的版本仅支持HFile V1,HBase 0.92/0.94同时支持HFile V1和HFile V2。 以下分别是HFile V1/V2的结构图: HFile V1H...原创 2012-05-25 14:40:56 · 207 阅读 · 0 评论 -
云计算大会视频与演讲备忘
<!--StartFragment -->阿里云:http://v.youku.com/v_show/id_XNDAyNzIxMTQ0.htmlbaidu,互联网与云http://v.youku.com/v_show/id_XNDA0MzY4NjAw.htmlbaidu的前半段是阿里云后面的部分,中间我跑去厕所断了一会。tudou的云http://v.youku.c...原创 2012-05-29 15:53:58 · 121 阅读 · 0 评论 -
SSH连接反应慢的分析解决
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://xjsunjie.blog.51cto.com/999372/658354 <!--正文 begin--> 最近有朋友咨询一个问题,说是SSH连接反应非常慢,具体现象就是在内网中通过SSH进行连接其他服务器时,发现初始连接非常慢,常常要等30秒左右...原创 2012-06-01 09:41:44 · 135 阅读 · 0 评论 -
Hadoop集群上使用Lzo压缩
自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里:Lzo压缩相比Gzip压缩,有如下特点:压缩解压的速度很快 Lz...原创 2012-06-01 15:47:23 · 86 阅读 · 0 评论 -
Hadoop集群中增加新节点
向一个正在运行的Hadoop集群中增加几个新的Nodes1. 新节点上部署java/hadoop程序,配置相应的环境变量2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3. 新节点上设置host,需要有集群中各节点的host对应4. 新节点上建立相关的目录,并修改属主5. master的slaves文件中增加上相的节点,m...原创 2012-06-01 15:53:04 · 70 阅读 · 0 评论 -
Hbase Shell的常用命令
总结的一些Hbase shell的命令都很简单,可以help来查看帮助create 'user_test','info'describe 'user_test'disable 'user_testinfo'drop 'user_testinfo'put 'user_test','test-1','info:username','test1'put 'user_test','test...原创 2012-06-01 15:54:48 · 107 阅读 · 0 评论 -
Hadoop集群的NameNode的备份
Hadoop集群中,NameNode节点存储着HDFS上所有文件和目录的元数据信息如果NameNode挂了,也就意味着整个Hadoop集群也就完了所以,NameNode节点的备份很重要,可以从以下2个方面来备份NameNode节点1. 在hdfs-site.xml中,配置多个name的dir到不同的磁盘分区上:<property> <name>...原创 2012-06-01 15:58:21 · 301 阅读 · 0 评论 -
hive实战
1. 安装hive2. hive实战3. hive存储模型4. 深入hql查询语言5. 参考资料及代码下载 <1>. 安装hive 下载hive,下载地址http://mirror.bjtu.edu.cn/apache//hive/,解压该文件: xuqiang@ubuntu:~/hadoop/src/hive$ tar zxvf hive-...原创 2012-04-10 16:01:21 · 481 阅读 · 0 评论 -
hadoop hive 资料
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 m...原创 2012-04-09 11:10:33 · 77 阅读 · 0 评论 -
利用Sqoop将数据从数据库导入到HDFS
基本使用如下面这个shell脚本:#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa123#需要从Oracle中导入的表名oralceTableName=tt#需要...原创 2012-01-30 14:08:47 · 241 阅读 · 0 评论 -
详细讲解Hadoop中的一个简单数据库HBase
HBase是Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。 数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格里的行可能有非常不同的列,只要用户喜欢这样做。 列名是“<族名>:<标签...原创 2012-01-30 15:07:59 · 65 阅读 · 0 评论 -
利用sqoop将hive数据导入导出数据到mysql
运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。 sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH...原创 2012-01-30 15:08:54 · 429 阅读 · 0 评论 -
HADOOP集群、hive、derby安装部署详细说明
一、创建用户groupadd analyzer -fuseradd analyzer -d /opt/analyzer -g analyzer -p searchanalyzer二、处理/etc/hosts文件三、设置免密码登录(多台机器的id_rsa.pub,相互拷贝)生成公钥、密钥:ssh-keygen -t rsa复制本地id_rsa.pub到远程服务器,使远程服务器登录本地...原创 2012-01-30 15:10:18 · 122 阅读 · 0 评论 -
hive安装配置
requirement: Java 1.6 Hadoop 0.20.x. ref:https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-InstallingHivefromaStableRelease1)download hivehttp://hive.apache.org/rel...原创 2012-01-30 15:14:57 · 125 阅读 · 0 评论 -
生成HFile以及入库到HBase
一、MR生成HFile文件package insert.tools.hfile;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfig...原创 2012-01-31 11:43:54 · 138 阅读 · 0 评论 -
hive基础
(一): Hive 是什么 在接触一个新的事物首先要回到的问题是:这是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on ...原创 2012-01-31 11:44:28 · 97 阅读 · 0 评论 -
HDFS+MapReduce+Hive+HBase十分钟快速入门(转)
1. 前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。2. Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:成员名用途Hadoop CommonHadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和...原创 2012-01-31 11:44:44 · 77 阅读 · 0 评论 -
Htable数据的访问问题
做了几天工程,对HBase中的表操作熟悉了一下。下面总结一下常用的表操作和容易出错的几个方面。当然主要来源于大牛们的文章。我在前人的基础上稍作解释。 1.连接HBase中的表testtable,用户名:root,密码:root public void ConnectHBaseTable() { Configuration conf = new Configuration...原创 2012-01-31 14:05:54 · 84 阅读 · 0 评论 -
hadoop、hbase、zookeeper环境搭建(详细)
一 机器192.168.0.203 hd203: hadoop namenode & hbase HMaster192.168.0.204 hd204: hadoop datanode & hbase HRegionServer & zookeeper192.168.0.205 hd205: hadoop datanode & hbase HRegionServ...原创 2012-02-02 09:29:07 · 123 阅读 · 0 评论 -
SQOOP的安装配置
SQOOP是一款开源的工具,主要用于在HADOOP与传统的数据库间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import data from arelational databa...原创 2012-02-02 14:31:43 · 255 阅读 · 0 评论 -
hadoop和hbase节点添加和单独重启
有时候hadoop或hbase集群运行时间久了后,某些节点就会失效,这个时候如果不想重启整个集群(这种情况在很多情况下已经不被允许),这个时候可以单独重启失效节点。 HADOOP:hadoop中重启单节点的方法和增加新节点其实是一样的。1、我们先看下如何了解hadoop机器的情况,可以用命令:hadoop dfsadmin -report 查看集群容量情况,很多情况下失效节点也可以从这...原创 2012-02-08 09:16:33 · 345 阅读 · 0 评论 -
ubuntu11.04上cloudera cdh3u0的hadoop和hbase分布式安装
概述: 业务需要较实时的处理大数据量,并提供大吞吐量的读写,hbase作为一个可选的列数据库,记录一下安装过程,待查。 hbase的安装需要hadoop和zookeeper和hbase,生产环境下需要将zookeeper独立安装,并保证整个集群没有单点。 hbase软件选择cloudera的cdh3u0,apache的版本需要重新编译hadoop0.20.2-appender版以保证没有数据丢失...原创 2012-02-09 10:39:46 · 94 阅读 · 0 评论 -
实现mapreduce多文件自定义输出
普通maprduce中通常是有map和reduce两个阶段,在不做设置的情况下,计算结果会以part-000*输出成多个文件,并且输出的文件数量和reduce数量一样,文件内容格式也不能随心所欲。这样不利于后续结果处理。 在hadoop中,reduce支持多个输出,输出的文件名也是可控的,就是继承MultipleTextOutputFormat类,重写generateFile...原创 2012-07-13 15:02:10 · 68 阅读 · 0 评论 -
Hadoop的rmr和trash
这两天在操作Hadoop集群时,由于一个误操作,制作了一个天大的悲剧不小心把Hadoop集群上的所有文件全部删除了,具体情况是这样的:我用hadoop的超级帐户要建立一个目录,结果发现位置错了也是,想使用rmr删掉那个目录,可是不小心把命令写成了hadoop fs -rmr /user于是,悲剧出现了,所有user目录下的所有目录和文件全都没有了当时我就慌神了,赶紧从w...原创 2012-02-14 10:40:05 · 553 阅读 · 0 评论 -
hadoop中mapred.tasktracker.map.tasks.maximum的设置
目前,我们邮件的一部分log已经迁移到Hadoop集群上并由Hive来执行相关的查询hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2也即:每一个tasktracker同时运行的map任务数为2照此默认设置,查询80天某用户的操作日志,耗时5mins, 45sec经过测试,发现将mapred.tasktracker.map....原创 2012-06-11 16:33:06 · 305 阅读 · 0 评论