Hadoop
文章平均质量分 82
idouba
这个作者很懒,什么都没留下…
展开
-
使用 Linux 和 Hadoop 进行分布式计算
因为原来的项目组用到了,在studygroup中细致学习过Hadoop和Hbase,也多了部分源码,感觉很好。找到当时度过的入门资料。也算是记录和提醒下不要因为所谓的时间忙,忘了自己感兴趣的东西。转载 2010-12-15 18:12:00 · 312 阅读 · 0 评论 -
Hadoop 笔记
<br />DistributedCache可在map/reduce任务中作为一种基础软件分发机制使用。它可以被用于分发jar包和本地库(native libraries)。DistributedCache.addArchiveToClassPath(Path, Configuration)和DistributedCache.addFileToClassPath(Path, Configuration) API能够被用于缓存文件和jar包,并把它们加入子jvm的classpath。也可以通过设置配置文档里的原创 2011-05-22 18:03:00 · 511 阅读 · 0 评论 -
Annotated Hadoop: 第二节 MapReduce框架结构
2 MapReduce框架结构<br />Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programming model),是一个用于处理和生成大规模数据集(processing and generating large data sets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中转载 2011-04-10 16:00:00 · 510 阅读 · 0 评论 -
Hbase分析报告
Hbase分析报告本文基于环境hadoop-0.16.4 和 hbase-0.1.3 编写Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。Hbaes的目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表。Hbase可以直接使用本地文件系统或者Hadoop作为数据存储方转载 2011-07-02 18:16:24 · 939 阅读 · 0 评论 -
FSEditLog记录
这几天搞namenode的重构,把namenode里的许多组件的内部结构给翻了出来,每个组件都是一套复杂的小系统。未免遗忘,先吧FsEditLog给记录下来吧。FSEditLog是用来记录namenode对HDFS的namespace的修改操作进行日志记录的。在namenode中转载 2011-07-22 22:47:27 · 1526 阅读 · 0 评论 -
Google BigTable 翻译 ---大表(Bigtable):结构化数据的分布存储系统
Google BigTable 翻译 ---大表(Bigtable):结构化数据的分布存储系统 摘要 bigtable是设计来分布存储大规模结构化数据的,从设计上它可以扩展到上2^50字节,分布存储在几千个普通服务器上.Google的很多 项目使用BT来存储数据,包括转载 2011-08-23 17:55:36 · 1284 阅读 · 0 评论 -
Hadoop作业提交分析
Hadoop作业提交分析(一)bin/hadoop jar xxx.jar mainclass args……这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个 Project或对Project做修改后,都必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行,在开发阶段那是极其繁琐的。程序员是“最懒”的,既然麻烦肯定是要想些法子减少无谓转载 2011-07-05 21:55:40 · 1067 阅读 · 0 评论 -
认识HadoopDB
来自耶鲁的一篇论文 http://db.cs.yale.edu/hadoopdb/hadoopdb.pdf 学习下。简要介绍的PPT,很经典http://www.slideshare.net/cloudera/hw09-hadoop-db 附其他资源,来自首页HadoopDB An Architectural Hybrid of MapReduce and DBMS Tech原创 2011-11-19 22:02:14 · 875 阅读 · 0 评论