![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 84
gpcuster
http://bbs.data-works.org/
展开
-
[翻译]HbaseArchitecture
<!--var search_hint = "Search";//--> HBase架构 原文地址:http://wiki.apache.org/hadoop/Hbase/HbaseArchitecture 本文来自 博客园 逖靖寒 http://gpcuster.cnblogs.com关于HBase,有一篇非常容易入门的原创 2009-09-24 21:36:00 · 765 阅读 · 0 评论 -
深入剖析Hadoop程序日志
前提 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com 了解log4j的使用。 正文 本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com *.log日志文件和*.out日志文件 进入我们的Hadoop_LOG目录,我们可以看到如下文件: 在启动Hadoop集群时,由hadoop-原创 2009-08-21 21:36:00 · 2983 阅读 · 2 评论 -
Hadoop初体验
今天是接触Hadoop的第十天。 十天下来,让我对分布式计算有了一次初体验,It’s cool :) 本文来自逖靖寒:http://gpcuster.cnblogs.com 我们主要使用Hadoop的2个部分:分布式文件存储系统(HDFS)和MapReduce计算模型。 关于这2个部分,可以参考一下Google的论文:The Google File System 和 MapR原创 2009-07-31 23:36:00 · 1441 阅读 · 0 评论 -
在Hadoop中使用MRUnit进行单元测试
本文地址:博客园 逖靖寒 http://gpcuster.cnblogs.com前提 1. 了解JUnit4.x的使用。2. 了解Mock的概念在单元测试中的应用。3. 了解Hadoop中MapReduce的编程模型。如果您对Junit和Mock不了解,可以先阅读[翻译]Unit testing with JUnit 4.x and EasyMock in Eclipse原创 2009-10-05 09:14:00 · 3438 阅读 · 0 评论 -
初识ZooKeeper
Hadoop下面的子项目ZooKeeper是一个用于协调分布式程序的服务。我们可以利用它来保证各个机器之间的数据同步。单机环境运行ZooKeeper1 下载ZooKeeper:http://labs.xiaonei.com/apache-mirror/hadoop/zookeeper/zookeeper-3.2.2/zookeeper-3.2.2.tar.gz2 解压。3原创 2010-01-15 13:50:00 · 2274 阅读 · 2 评论 -
使用CapacityTaskScheduler
Hadoop的版本为0.19.2 关于这个调度的详细介绍,可以参考:http://hadoop.apache.org/common/docs/r0.19.2/capacity_scheduler.html 本文只介绍如何搭建一个CapacityTaskScheduler的系统。 在Master机器上执行如下操作: 1 将contrib/capacity-scheduler/had原创 2010-01-27 21:54:00 · 645 阅读 · 0 评论 -
搭建Hive平台
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 本文讲解如何搭建一个Hive平台。假设我们有3台机器:hadoop1,hadoop2,hadoop3。并且都安装好了Hadoop-0.19.2(hive支持的Hadoo原创 2010-02-24 14:19:00 · 773 阅读 · 0 评论 -
使用Hive的web界面:HWI
HWI是Hive Web Interface的简称,是hive cli的一个web替换方案。 关于如何搭建Hive平台,可以参考:搭建Hive平台 但是目前这个功能做的比较简陋,这篇文章我们一起来看看如何使用hive-0.4.1中自带的hwi来进行操作。 打开HWI 假设hive部署在10.20.151.7机器上,conf/hive-default.xml文件都是默认值,那么我们原创 2010-02-25 15:17:00 · 4007 阅读 · 1 评论 -
大话Cassandra数据模型
Cassandra是一个开源的分布式数据库,结合了Dynamo的Key/Value与Bigtable的面向列的特点。 Cassandra的特点如下: 1.灵活的schema:不需要象数据库一样预先设计schema,增加或者删除字段非常方便(on the fly)。 2.支持range查询:可以对Key进行范围查询。 3.高可用,可扩展:单点故障不影响集群服务,可线性原创 2010-03-12 11:16:00 · 1229 阅读 · 0 评论