Hadoop
文章平均质量分 78
bh_xiaoxinba
这个作者很懒,什么都没留下…
展开
-
HDFS分布式文件系统系列---基础
1、概述1、背景HDFS(Hadoop Distributed File System)Hadoop分布式文件系统; Hadoop内核包括:HDFS,Yarn,MapReduce; HDFS源于Google的一篇论文:GFS - 该论文发表与2003年10月; - HDFS是GFS的克隆版;HDFS是一个易于扩展的分布式文件系统;运行在大量廉价机器上,提供容错机制;为大量用户提供性原创 2016-09-30 17:09:35 · 864 阅读 · 0 评论 -
HDFS分布式文件系统系列---HDFS程序设计
1、HDFS访问方式shell命令 Java API Rest API HDFS Fuse:实现了Fuse协议 HDFS lib hdfs : c/c++访问接口 HDFS 其他编程语言API使用thrift实现支持c++ 、python、php等语言2、shell命令1)文件操作命令bin/hadoop fs ….将本地文件上传到HDFS: bin/hadoop fs -copyF原创 2016-10-02 13:02:05 · 369 阅读 · 0 评论 -
hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分转载 2016-11-07 22:02:34 · 270 阅读 · 0 评论 -
HDFS分布式文件系统系列---HDFS 2.0新特性
1、新特性NameNode HANameNode FederationHDFS 快照HDFS 缓存HDFS ACL异构层级存储结构2、NameNode HA多个namenode,一个为active,一个standby,通过zookeeper管理;3、NameNode Federation多个namenode,多个active,多个standby(每个active有一个standby);原创 2016-10-02 15:00:45 · 2634 阅读 · 0 评论