Hadoop
文章平均质量分 61
jaguar13
这个作者很懒,什么都没留下…
展开
-
用 Hadoop 进行分布式并行编程, 第 3 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何部署 Hadoop 分布式运行环境,如何让程序分布式运行于多台普通的计算机上,如何使用 IBM MapReduce Tools 轻松地将 MapReduce 程序部署到 Hadoop 分转载 2009-02-11 21:03:00 · 730 阅读 · 0 评论 -
Hadoop中的数据库访问
Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormat DBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop...2010-06-03 20:21:50 · 588 阅读 · 0 评论 -
《Hadoop开发者》第一期入门专刊
[align=center][size=x-large]Hadoop开发者入门专刊[/size][/align] [img]http://dl.iteye.com/upload/attachment/203202/51d245ba-72b3-3dd5-a040-c985c1f5a43d.jpg[/img]2010-02-04 16:43:05 · 129 阅读 · 0 评论 -
在Windows中使用Cygwin安装HBase
1.简介 HBase是 Hadoop 的正式子项目,它是一个面向列的分布式数据库,它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,其思想源于Google的BigTable论文。(Google BigTable的paper: http://labs.google.com/papers/bigtable-osdi06.pdf) 由于HBase是一个分布式、大规模的...原创 2010-02-04 16:18:19 · 108 阅读 · 0 评论 -
《Hadoop开发者》第二期
下载:http://ishare.iask.sina.com.cn/f/7401946.html (新浪爱问)2010-04-09 10:13:49 · 133 阅读 · 0 评论 -
Hadoop中的数据库访问
<br /><br />Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。<br /> <br />1.DBInputFormat<br />DBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.mapred.lib.db中,主要用来与现有的数据库系统进行交互,包原创 2010-06-09 10:18:00 · 1162 阅读 · 0 评论 -
在Windows中使用Cygwin安装HBase
在Windows中使用Cygwin安装HBase飞鸿雪泥1.简介HBase是 Hadoop 的正式子项目,它是一个面向列的分布式数据库,它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,其思想源于Google的BigTable论文。(Google BigTable的paper: http://labs.google.com/papers/bigtab原创 2010-02-04 16:23:00 · 2070 阅读 · 1 评论 -
Hadoop开发者入门专刊
Hadoop开发者入门专刊 下载地址:http://bbs.hadoopor.com/thread-442-1-1.html原创 2010-02-04 16:48:00 · 634 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 2 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于 Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。前言在上一篇转载 2009-02-11 21:01:00 · 665 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 1 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法。Hadoop 简介Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由转载 2009-02-11 20:58:00 · 639 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计要点
Hadoop分布式文件系统:架构和设计要点原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主转载 2009-02-11 21:05:00 · 861 阅读 · 0 评论 -
《Hadoop开发者》第三期
《Hadoop开发者》第三期原创 2010-07-03 16:27:20 · 124 阅读 · 0 评论