hdfs
文章平均质量分 79
midNightParis
这个作者很懒,什么都没留下…
展开
-
sequenceFile源码分析
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引。不过,这类解决方案还涉及到Hadoop的另一种文件格式——MapFile文件。SequenceFile文件并不保证转载 2014-04-28 22:44:13 · 500 阅读 · 0 评论 -
HDFS之SequenceFile和MapFile
Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS提供了两种类型的容器,分别是SequenceFile和MapFile。一、SequenceFileS原创 2014-04-28 21:55:40 · 821 阅读 · 0 评论 -
hadoop压缩格式
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,转载 2014-08-18 14:50:33 · 772 阅读 · 0 评论 -
eclipse和hadoop2.3.0相连
之前公司的集群使用的是hadoop 1x系列的,直接在window系统下uf原创 2014-09-03 15:44:26 · 560 阅读 · 0 评论 -
Spark On Yarn(HDFS HA)详细配置过程
转载自:http://database.51cto.com/art/201404/435630.htmSpark On Yarn(HDFS HA)详细配置过程2014-04-16 11:01 人生理想在于坚持不懈 51CTO博客 字号:T |T我们将要介绍Spark On Yarn详细配置过程,包括服务器分布以及Spark的部署全部过程。AD:WOT2015 互转载 2015-02-09 10:19:33 · 663 阅读 · 0 评论 -
Hadoop HDFS架构和设计
转载自:http://greatwqs.iteye.com/blog/1840321引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供转载 2015-03-24 17:58:01 · 344 阅读 · 0 评论 -
搭建(win7)eclipse远程操作(Linux上)hadoop2.6.0_出错集
问题1:在DFS Lcation 上不能多文件进行操作:在hadoop上的每个节点上修改该文件 conf/mapred-site.xml 增加: <property> <name>dfs.permissions</name> <value>false</value>转载 2015-09-23 17:38:13 · 326 阅读 · 0 评论