Hadoop
文章平均质量分 88
kingzone_2008
对于机器学习数据挖掘相关技术有浓厚兴趣
展开
-
文件系统与HDFS
1.文件系统 磁盘块(物理块):一般为512Bytes或1024Bytes 逻辑块(文件系统块):一般为几KB,通常为磁盘块的整数倍 Linux Ext2中还有一个重要概念:片(fragment):用于避免“内碎片” 物理块大小 2.HDFS(Hadoop分布式文件系统) HDFS中块(block)默认大小为64MB,不同于其他FS,HDFS中小于一个块大小的文件不会占据整个块的空间原创 2012-11-09 11:48:35 · 1883 阅读 · 0 评论 -
Sqoop Developer’s Guide v1.4.6 (Sqoop开发者指南,中文版)
1.介绍 如果你是一个开发者或者应用程序员,想要修改Sqoop或者使用Sqoop内部API构建一个扩展,你应该阅读本文档。以下章节描述了每个API的目的,哪里用到了内部API,实现其他数据库的支持需要哪些API。 2.支持的发行版 本文档适用于Sqoop v1.4.6。 3.Sqoop发行版 Apache Sqoop是Apache Software Foundatio翻译 2015-12-14 17:27:47 · 6220 阅读 · 5 评论 -
NoSql中的B-tree、B+tree和LSM-tree
首先来回答一个问题:为什么在磁盘中要使用b+树来进行文件存储呢? 原因还是因为树的高度低得缘故,磁盘本身是一个顺序读写快,随机读写慢的系统,那么如果想高效的从磁盘中找到数据,势必需要满足一个最重要的条件:减少寻道次数。 我们以平衡树为例进行对比,就会发现问题所在了: 先上个图 这是个平衡树,可以看到基本上一个元素下只有两个子叶节点 抽象的来看,树转载 2013-01-14 15:57:10 · 13184 阅读 · 1 评论 -
HBase之四【进阶】HBase存储架构
HBase存储架构 英文原文:http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage.html HBase最隐秘的问题之一就是它的数据是如何存储的。虽然大多数用户都不会因为这个问题向你抱怨,但是如果你想学习哪些高级的配置选项并了解它们的意思,你可能就需要来了解一下这个存储问题了。“怎样才能把HBase调整到最适合转载 2013-01-10 12:43:40 · 2190 阅读 · 0 评论 -
HBase之五【进阶】HBase中的Client如何路由到正确的RegionServer
在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭转载 2013-01-10 12:48:10 · 1495 阅读 · 0 评论 -
HBase之三【HBase基础】HFile存储格式
HBase中的所有数据文件都存储在Hadoop HDFS文件系统上,主要包括两种文件类型: 1. HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile 2. HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物转载 2013-01-10 12:27:03 · 1550 阅读 · 0 评论 -
HBase之二【HBase基础】hbase介绍(2)
一、简介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007.10 First useable Hbase 2008转载 2013-01-10 11:22:20 · 806 阅读 · 0 评论 -
HBase之一【HBase基础】HBase技术介绍
HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行M转载 2013-01-10 10:24:34 · 1643 阅读 · 0 评论 -
Google File System II: Dawn of the Multiplying Master Nodes
谷歌定制的文件系统迫于前所未有的压力,因此谷歌酝酿着一个替代产品。 很明显,作为早些时候宣布的“caffeine”架构的一部分,GFS的全面修改正处于测试阶段。 在ACM的一次访谈中,Google的Sean Quinlan说,GFS诞生近10年来已经做了许多超出其预期的工作。 “考虑到Google的操作的数量级已经远远超过其设计能力,它的持久力是极为突出的。尽管谷歌目前支持的应用程序组合不是翻译 2012-08-27 11:03:22 · 1623 阅读 · 0 评论