hadoop
nodie
这个作者很懒,什么都没留下…
展开
-
thrift安装资料集合
http://www.buywine168.com/index.php?option=com_idoblog&task=viewpost&id=60&Itemid=6 http://blog.sina.com.cn/s/blog_5dce657a0100f0ou.html http://blog.johnsonlu.org/?p=436原创 2011-06-22 14:19:57 · 127 阅读 · 0 评论 -
HBase入门篇3
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址: http://www.javabloger.com/article/hbase-performance-hbase-optimized.html 前两篇文件分别说到了我在学习HBase中的一些入门经验,而《HBase 入门3》这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为...原创 2011-06-06 21:21:02 · 289 阅读 · 0 评论 -
HBase入门篇2-Java操作HBase例子
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址: http://www.javabloger.com/article/apache-hbase-shell-and-java-api-html.html 本篇文章讲述用HBase Shell命令 和 HBase Java API 对HBase 服务器 进行操作。在此之前需要对HB...原创 2011-06-06 21:18:13 · 124 阅读 · 0 评论 -
HBase入门篇
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址: http://www.javabloger.com/article/apache-hbase-shell-and-install-key-value.html HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基...原创 2011-06-06 21:17:12 · 144 阅读 · 0 评论 -
Hive 和数据库的异同
原文地址:http://www.oschina.net/question/12_7936 摘要:由于 Hive 采用了 SQL 的查询语言 HQL,因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的...原创 2011-06-06 14:08:17 · 137 阅读 · 0 评论 -
hadoop+hive 做数据仓库 & 一些测试
由于是一个项目的一部分,去掉了项目名称,和大家一起交流, msn: sdtvATmsn.com 转载标明 :www.bagbaby.cn http://hi.baidu.com/dd_shop 背景需求和现状目前的日志系统还称不上系统,只是在几台服务器上存着所有的日志,依靠NFS共享数据,并运算,带来的问题诸多:a) 数据存放凌乱,缺乏系统的目录管理;b) 存储空间有限,并且扩...原创 2011-06-05 15:23:03 · 339 阅读 · 0 评论 -
几篇关于Hadoop+Hive数据仓库的入门文章
Hadoop计算平台和Hadoop数据仓库的区别http://datasearch.ruc.edu.cn/~boliangfeng/blog/?tag=%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93Hive 随谈(三)– Hive 和数据库的异同http://www.tbdata.org/archives/551Hadoop Ecosystem解决方案---数据仓库htt...原创 2011-06-05 15:21:09 · 79 阅读 · 0 评论 -
Hadoop家族
整个Hadoop家族由以下几个子项目组成:成员名用途Hadoop CommonHadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。AvroAvro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro...转载 2011-06-05 15:01:49 · 61 阅读 · 0 评论 -
云框架Hadoop之Hive基本操作
在上一讲<<云框架Hadoop之部署Hive>>上,我们谈到了hadoop的数据仓库hive.下面我们说明一下hive的简单查询应用。在hadoop环境下,shell下直接输入hive,就会出现hive shell操作界面。关于HIVE里的SQL,我习惯性的将HIVE的SQL语句叫做HQL,事实上HQL有很多和SQL类似的地方,还有一点要说明的是HQL数据存储位置是在Had...原创 2011-06-05 14:47:44 · 244 阅读 · 0 评论 -
hive数据导出
很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。1.将select的结果放到一个的的表格中(首先要用create table创建新的表格) insert overwrite table test select uid,name from test2;2...原创 2011-06-05 14:37:43 · 76 阅读 · 0 评论 -
hive数据导入——从HDFS导入
由于很多数据在hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是\,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下: create table test(uid string,name string)row format delimited fields terminated by '\t';通过这种方式,完成分隔符的指定。...原创 2011-06-05 14:36:43 · 567 阅读 · 0 评论 -
编写hive udf函数
udf编写入门大写转小写package com.afan;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class UDFLower extends UDF{ public Text evaluate(final Text s){ if (null == s){...原创 2011-06-04 20:52:46 · 299 阅读 · 0 评论 -
HIVE使用笔记,导入日志
Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同 时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提 供了HDFS分布式存储系统和map...原创 2011-06-04 20:47:31 · 267 阅读 · 0 评论 -
单台服务器上安装Hadoop和Hive十五分钟教程
单台服务器上学习Hadoop和Hive十分钟教程Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具。一般的学习者不是太容易找到多台服务器来做集群学习hadoop,所以hadoop官方文档提供了在单台服务器上运行hadoop的指南(hive是基于hadoop的,它不关心有几台服务器,只要有hadoop就行了),来教大家怎样在一台硬件机器上模拟一个ha...原创 2011-06-04 14:54:17 · 417 阅读 · 0 评论 -
HBase入门篇4–存储
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址: http://www.javabloger.com/article/apache-hbase-hadoop.html 前几篇文章讲述了 HBase的安装、Hbase命令和API的使用、HBase简单的优化技巧,《HBase入门篇4》这篇文章是讲述把HBase的数据放在HDFS上的点滴过程...原创 2011-06-06 21:22:11 · 131 阅读 · 0 评论 -
使用HBase的一个典型例子,涉及了HBase中很多概念
一个使用HBase的例子,如下。import java.io.IOException;import org.apache.hadoop.hbase.client.HTable;import org.apache.hadoop.hbase.client.Scanner;import org.apache.hadoop.hbase.io.BatchUpdate;import org.apach...原创 2011-06-07 15:38:42 · 96 阅读 · 0 评论 -
hbase分布安装部署
1、 hbase安装部署#cd /hadoop#wget http://apache.etoak.com//hbase/hbase-0.20.6/hbase-0.20.6.tar.gz#tar -zxvf hbase-0.20.6.tar.gz #ln -s hbase-0.20.6 hbase#mkdir hbase-config#cd /hadoop/hbase/conf/#cp...原创 2011-06-07 22:37:46 · 81 阅读 · 0 评论 -
在Ubuntu下编译安装Thrift(支持php和c++)
原文地址:http://www.coder4.com/archives/1188 Thrift是一个开源的RPC框架,由知名SNS社区FaceBook贡献。下面记录了在Ubuntu 10.04下编译安装Thrift的全过程。1、编译安装依赖安装Java(除非你不想RPC使用Java)?#相关代码, [四号程序员] http://www.coder4.com...原创 2011-06-22 14:16:30 · 161 阅读 · 0 评论 -
HBase Thrift 0.5.0 + PHP 5 安裝設定
原文地址:http://blog.kfchph.com/20-hbase-thrift-050-php5/系統環境與套件版本作業系統環境: Ubuntu 9.04 Server x2Hadoop 0.20.2 Fully-distributed modesHBase 0.89.20100621 Fully-distributed modesThrift 0.5.0...原创 2011-06-22 14:13:50 · 87 阅读 · 0 评论 -
Hadoop+hbase+thrift H.H.T环境部署
原文地址:http://blog.sina.com.cn/s/blog_5dce657a0100f0ou.html原创 2011-06-21 12:58:42 · 104 阅读 · 0 评论 -
php操作hbase例子
1 $GLOBALS['THRIFT_ROOT'] = '/home/thrift'; 2 require_once $GLOBALS['THRIFT_ROOT'].'/Thrift.php'; 3 require_once $GLOBALS['THRIFT_ROOT'].'/protocol/TBinaryProtocol.php'; 4 require_once $GLOBALS['TH...原创 2011-06-21 10:59:09 · 177 阅读 · 0 评论 -
HBase技术介绍
原文地址:http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似...原创 2011-06-21 10:54:51 · 77 阅读 · 0 评论 -
详细讲解Hadoop中的一个简单数据库HBase
原文地址:http://database.e800.com.cn/articles/2008/320/1205953658379954753_1.html HBase是Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。数据模型HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括...原创 2011-06-08 17:29:07 · 179 阅读 · 0 评论 -
hive sql语法解读
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://luobeng.blogbus.com/logs/104394168.htmlhttp://ilovejavaforever.javaeye.com/blog/760731 引言: 原本打算把所有hive相关的sql语法,全部写下来,但是写着写着,发现自己仅仅是在翻译hive的wiki,没有什么有价...原创 2011-06-08 16:52:26 · 118 阅读 · 0 评论 -
Hive 的启动方式
Hive 的启动方式 hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli hive web界面的启动方式,hive –service hwi hive 远程服务 (端口号10000) 启动方式,nohup hive –service hiveserver &...原创 2011-06-08 16:49:49 · 796 阅读 · 0 评论 -
Hive环境搭建与入门
原文地址:http://www.jiacheo.org/blog/126 一、概述hive是一个基于hadoop的数据仓库基础设施, 提供数据的提取转换加载和查询, 不适于少数据量(比如几亿)的数据查询, 也不适于实时或者在线数据的查询, 是一个非实时的, 离线的数据查询工具. hive没有自己的文件格式, 只需要普通的文件格式或者用户自定义的格式就可以了.二、环境搭建hi...原创 2011-06-08 16:47:02 · 78 阅读 · 0 评论 -
Hbase入门6 -白话MySQL(RDBMS)与HBase之间
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址: http://www.javabloger.com/article/hbase-mysql-rdbms.html 我的废话1: 任何一项新技术并非救命稻草,一抹一擦立马药到病除的百宝箱,并非使用Spring或者NOSQL的产品就神乎其神+五光十色,如果那样基本是扯淡。同类 型产品中不...原创 2011-06-08 15:38:25 · 101 阅读 · 0 评论 -
Apache Hive入门3–Hive与HBase的整合
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址: http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html 开场白:Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-ha...原创 2011-06-08 10:03:50 · 179 阅读 · 0 评论 -
Apache Hive入门2
我的偏见: 对于互联网公司来说提炼挖掘生产中用户产生的大量日志是个有价值的工作,在这些看似垃圾东西中蕴含着大量的商业机会和用户的需求,如果可以简单的实现当然皆大欢喜,但是面对庞大的输出日志需要去提炼的时候只好束手无则无视他的存在,就拿我们最熟悉的Log4J来说,如果是上TB的海量文本类型输出的格式根本无法查询,更谈不上数据挖掘。 当然我们也知道存放在数据库里面当然是不错的选择,对抗海量的...原创 2011-06-08 10:00:33 · 104 阅读 · 0 评论 -
Apache Hive入门1
作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址: http://www.javabloger.com/article/apache-hive-jdbc-mapreduce.html Hive是Hadoop项目中的一个子项目,由FaceBook向Apache基金会贡献,其中TaoBao也是其中一位使用者+贡献者,Hive被视为一个仓...原创 2011-06-08 09:59:32 · 179 阅读 · 0 评论 -
Hadoop分布式安装
一、安装准备1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 200...原创 2011-05-06 10:56:53 · 83 阅读 · 0 评论 -
基于云计算平台的并行数据挖掘
基于云计算平台的并行数据挖掘已有 1261 次阅读 2010-5-7 14:26 |个人分类:cloud|系统分类:科研笔记采用云计算技术,实现海量数据的存储、分析、处理、挖掘,提供高可靠性、高性能的数据挖掘分析。从系统架构来讲,基于云计算的并行数据挖掘工具平台包括三个层次,依下而上为分布式计算层;数据挖掘平台层;业务应用层(1)分布式计算平台层:包括三部...原创 2011-05-05 11:06:18 · 337 阅读 · 0 评论 -
Hadoop学习笔记之五:使用Eclipse插件
Hadoop学习笔记之五:使用Eclipse插件2010年12月19日 由 yedu留言 »引言在开发调试过程中,需要将程序打包,运行任务后通过命令或web界面查看运行输出及job运行情况,这个比较繁琐,下面介绍的eclipse插件可以简化这个过程,方便调试。插件安装Hadoop的eclipse plugin跟hadoop发行版一起分发,到hadoop安装目录\ contrib\e...原创 2011-04-30 13:26:04 · 60 阅读 · 0 评论 -
Hadoop学习笔记之四:运行MapReduce作业做集成测试
Hadoop学习笔记之四:运行MapReduce作业做集成测试2010年12月19日 由 yedu留言 »引言通过本系列的前篇文章用MRUnit做单元测试介绍可以很容易对MapReduce进行单元测试,这很必要,可以较早的发现一些代码逻辑的问题。只有单元测试是不够的,我们需要对MapReduce任务进行集成测试,要进行集成测试,得先懂得如何将MapReduce 作业在hadoop集...原创 2011-04-30 13:25:27 · 99 阅读 · 0 评论 -
初学Hadoop
创建目录hadoop dfs -mkdir 目录名(dfs也可以用fs代替)列取目录hadoop dfs -ls .(当前目录)hadoop dfs -ls 目录名从本地文件系统复制文件到DFShadoop dfs -copyFromLocal 源文件 目标文件源文件默认从当前目录中读取,如果目标文件是相对路径则是保存在DFS的/user/root/目录下从DF...原创 2011-04-30 13:20:01 · 72 阅读 · 0 评论 -
基于Eclipse的Hadoop应用开发环境的配置
基于Eclipse的Hadoop应用开发环境的配置 (2009-01-22 22:17:54)转载标签: eclipse 开发环境 应用开发 ibm hadoop 云计算 ubuntu cloudcomputing it分类: 技术特区基于Eclipse的Hadoop应...原创 2011-04-27 15:30:25 · 85 阅读 · 0 评论 -
如何对hadoop作业的某个task进行debug单步跟踪
<br /><br />对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然 后提交到集群中运行,但是集群中如果某个task总是失败,要对这一个task进行单步跟踪就非常困难。其实原因很简单,因为当把作业提交到hadoop 集群进行运行的时候,你事先根本就不知道那个map或者reduce的task会被分配到哪个tasktracker上执行转载 2011-05-06 17:34:00 · 2220 阅读 · 0 评论 -
hdfs文件操作基本方法(1)
<br />DFSOperater.java<br /> <br />import org.apache.hadoop.conf.*;import org.apache.hadoop.fs.*;import org.apache.hadoop.hdfs.*;import org.apache.hadoop.hdfs.protocol.*;import java.util.Date;public class DFSOperater { /** * @param args *原创 2011-05-05 14:26:00 · 2922 阅读 · 0 评论 -
最简单HDFS读取文件
<br />public class ReadDFS { public static void main(String[] args) { Configuration conf = new Configuration(); try{ FileSystem hdfs = FileSystem.get(conf); Path inPath = new Path("/user/nodie/my22"); // FSDataInputStream d原创 2011-05-05 14:22:00 · 3210 阅读 · 0 评论 -
Hadoop读写Hdfs系统文件
<br /><br />Hadoop读写Hdfs系统文件<br />第一,在程序添加相关引用。<br />import org.apache.hadoop.fs.FSDataInputStream;<br />import org.apache.hadoop.fs.FSDataOutputStream;<br />import org.apache.hadoop.fs.FileStatus;<br />import org.apache.hadoop.fs.FileSystem;<br />import o转载 2011-05-03 11:03:00 · 5816 阅读 · 1 评论