Hadoop
文章平均质量分 83
jtlyuan
这个作者很懒,什么都没留下…
展开
-
hbase coprocessor的分析
下载链接:hbase coprocessor的分析.pdf hbase Coprocessor是很多人对hbase-0.92的重大期待之一。它让离线分析和在线应用很好地结合在了一起,另外也极大地拓展了hbase的应用丰富性,不再是简单的k-v类应用。hbase coprocessor的设计来源于hbase-2000和hbase-2001两个issue。那么几年过去了,hbase cop转载 2012-04-08 23:03:13 · 686 阅读 · 0 评论 -
MapReduce中Mapper类和Reducer类4函数解析
Mapper类4个函数的解析protected void setup(Mapper.Context context) throws IOException,InterruptedException //Called once at the beginning of the taskprotected void cleanup(Mapper.Context context)throws IO原创 2012-05-12 19:56:01 · 5487 阅读 · 0 评论 -
利用MapReduce解决在海量数据中求Top K个数
利用MapReduce求海量数据中最大的K个数 package jtlyuan.csdn;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;原创 2012-05-12 19:59:35 · 11805 阅读 · 4 评论 -
MapReduce求海量数据中的最大值
利用MapReduce求解海量数据文件中的最大值思路:利用Mapper类中的cleanup()函数,因为cleanup()函数是在所有的map()完成之后才执行的。 package jtlyuan.csdn;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import or原创 2012-05-12 19:57:48 · 6432 阅读 · 1 评论 -
hbase基本概念和hbase shell常用命令用法
转自:http://chenxuebiao3.blog.163.com/blog/static/27491118201110175030559/1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用H转载 2012-07-16 20:36:37 · 1100 阅读 · 0 评论 -
HBase NativeException: org.apache.hadoop.hbase.MasterNotRunningException: null
NativeException: org.apache.hadoop.hbase.MasterNotRunningException: null重启机房服务器后,用./start-hbase.sh启动HBase后,执行hbase shell,出现如下情况[root@localhost bin]# hbase shellHBase Shell; enter 'help' for原创 2012-07-16 21:40:33 · 1422 阅读 · 0 评论 -
Hbase的入门配置教程(0.20.6)
1.Hbase是hadoop的子项目,到http://hadoop.apache.org这里下载合适的Hbase版本。注意:Hadoop跟Hbase的版本是不能随意搭配的。所以要先了解清楚是否搭配再进行部署,不然就白费工夫了。这里使用的是0.20.2的hadoop跟0.20.6的Hbase,hadoop的配置在我以前的博文里有,有需要配置hadoop的朋友先看了那篇文章再进行Hbase的配置吧。配转载 2012-07-17 13:35:28 · 938 阅读 · 0 评论 -
HBase Java API详解
HBase是Hadoop的数据库,能够对大数据提供随机、实时读写访问。他是开源的,分布式的,多版本的,面向列的,存储模型。在讲解的时候我首先给大家讲解一下HBase的整体结构,如下图:HBase Master是服务器负责管理所有的HRegion服务器,HBase Master并不存储HBase服务器的任何数据,HBase逻辑上的表可能会划分为多个HRegion,然后存储在HRegi原创 2012-07-17 14:28:32 · 3556 阅读 · 0 评论 -
Hbase API学习
转载于http://blog.csdn.net/zhangziliang09/article/details/7229213import java.io.IOException;import java.io.ByteArrayOutputStream;import java.io.DataOutputStream;import java.io.ByteArrayInputStrea转载 2012-07-09 19:18:40 · 1127 阅读 · 0 评论 -
HBase Java API使用操作例子
通过对HBase API的使用,下面例子举例了常见对HBase的操作,如下所示:package net.csdn.jtlyuan;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HCol原创 2012-07-17 21:16:06 · 3300 阅读 · 1 评论 -
MapReduce实现单表关联
例如给出表child-parent表,要求输出grandchildren-grandparent表给出:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack Jesse 输出:Tom AliceTom JesseJone Alice原创 2012-09-03 12:53:36 · 4611 阅读 · 0 评论 -
MapReduce模板
package jtlyuan.csdn.template;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.原创 2012-05-09 20:21:32 · 1325 阅读 · 0 评论 -
Hadoop数据输入输出格式
MapReduce处理的基本原则之一是将输入数据分割成块,这些快可以在多台计算机上并行处理。FSDataInputStream类扩展了java中的DataInputStream类,以达到随机读的特性,避免了从同开始读到分片的位置,从而提高了效率。输入格式:InputFormat类定义了如何分割和读取输入文件,其中一个子类是FileInputFormat抽象类。当开启Hadoop作业原创 2012-05-04 20:04:49 · 4895 阅读 · 0 评论 -
Hadoop学习笔记之---Hadoop I/O
1. 数据完整性:任何语言对IO的操作都要保持其数据的完整性。hadoop当然希望数据在存储和处理中不会丢失或损坏。检查数据完整性的常用方法是校验和。HDFS的数据完整性:客户端在写或者读取HDFS的文件时,都会对其进行校验和验证,当然我们可以通过在Open()方法读取之前,将false传给FileSystem中的setVerifyCheckSum()来禁用校验和。本地文件系统,hadoo转载 2012-04-23 18:03:12 · 1048 阅读 · 0 评论 -
HBase 在淘宝的应用和优化
转载于:http://walkoven.com/?p=57下载: http://walkoven.com/hbase optimization and apply summary in taobao.pdf hbase在淘宝的应用和优化小结 作者:邓明鉴(taobao.com) 2012.3.5转载 2012-04-08 22:58:00 · 1793 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践
转载于:http://jlins-you.iteye.com/blog/1478335一、分布式计算开源框架Hadoop实践在 SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memca转载 2012-04-08 22:55:00 · 816 阅读 · 0 评论 -
Ubuntu11.04配置Hadoop0.20.2
Ubuntu11.04配置Hadoop0.20.21、安装ubuntu11.04wubi的傻瓜式安装应该不用我多说了吧,在win下用虚拟光驱载入,然后执行.......另外补充下,安装时最好断开网络连接(我们是直接拔的网线),因为ubuntu安装过程中需要更新一些语言包之类的东西,那些东西与我们要做的事没什么关系,下载时间又长,所以建议不更新。 2、安装jdk1.6.0_26原创 2012-04-24 21:15:29 · 732 阅读 · 0 评论 -
Hadoop学习笔记之---HDFS
一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据原创 2012-04-16 19:21:00 · 839 阅读 · 0 评论 -
Hadoop常用配置
转载:http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不转载 2012-04-26 23:17:36 · 658 阅读 · 0 评论 -
eclipse中Hadoop的DFS Location无法显示DFS下的文件 解决方法
转载于:http://hi.baidu.com/wlygqy/blog/item/9649864dc8ace829b2de0551.html转载自 guxuanguichen最终编辑 guxuanguichen 问题如上图所示,前提是首先要将hadoop正确安装,在命令行中可以运行例子程序,然后在eclipse中配置如下图 注转载 2012-04-30 22:52:18 · 12026 阅读 · 2 评论 -
hadoop操作命令总结
转载于:http://blog.csdn.net/cybercode/article/details/7085260eclipse hadoop开发环境配置已经搞定,接下来就是开发hadoop程序了。但在这之前熟悉下hadoop的基本操作命令非常有必要,以下就先简单的小结下:启动和关闭Hadoop启动Hadoop 1.进入HADOOP_HOME目录。 2.执行b转载 2012-04-30 22:24:50 · 764 阅读 · 0 评论 -
Hadoop学习资料、博客及网站汇总
转载-http://blog.csdn.net/yaoyepeng/article/details/5929400hadoop笔记:http://ekaf.blog.163.com/blog/static/17710797020116269126649/点击打开链接Hadoop官方的中文文档http://hadoop.apache.org/common/docs/r0.18.2/cn/转载 2012-04-08 23:31:25 · 1129 阅读 · 0 评论 -
剖解MapReduce
Hadoop数据类型为了能让MapReduce的key/value对能够在集群中移动,MapReduce框架提供了一个序列化key/value对的方法但MapReduce并不允许任意的类都能做为key,只有实现了WriableComparable或者Wirable接口(说明,Wriable也实现了WriableComparable接口)的类才能做为键,因为在reduce阶段要根据key来进原创 2012-05-04 20:01:18 · 1208 阅读 · 0 评论 -
Hadoop系统操作类FileSystem
FileSystem类,Hadoop文件API的起点,是一个一个与文件系统交互的抽象类,其对HDFS的操作由不同的具体实现子类来实现。通过下面的方法来获取一个具体的FileSystem实例:获取用于HDFS系统的实例:public static FileSystem get(Configuration conf) throws IOException获取用于本地文件系统的实例:public原创 2012-05-04 19:53:22 · 2217 阅读 · 0 评论 -
Hadoop云盘系统
总体概况 项目名称: 《Hadoop云盘系统》 Ø 项目开发环境:Linux下Hadoop分布式系统Ø 项目开发环境:Ubuntu11.04+Hadoop0.20.2+JDK1.6+Eclipse3.3.2。Ø 使用技术:Hadoop + JavaØ 作品展示地址:http://blog.csdn.net/jtlyuan/ar原创 2012-09-14 22:38:20 · 29896 阅读 · 105 评论