HDFS
leishenop
开源改变世界
展开
-
Hadoop Sequence File 文件的读取和写入
写入代码下面是写入了100条(key,value)的信息,其中以LongWriable为key,以Text作为value. Configuration config = new Configuration(); FileSystem fs = FileSystem.get(conf); int i = 0; Path path = ne原创 2017-05-09 09:41:12 · 1275 阅读 · 0 评论 -
Hadoop Parquet File 文件的读取
产生parquet数据这里通过Spark SQL来从CSV文件中读取数据,然后把这些数据存到parquet文件去。 SparkContext context = new SparkContext(new SparkConf().setMaster("local").setAppName("parquet")); SQLContext sqlCont原创 2017-05-11 14:10:48 · 8032 阅读 · 7 评论 -
Hadoop 多输入和多输出研究(如何在Job History中获取相关信息)
Hadoop FileInputFormat多输入使用FileInputFormat来指定多个输入.当我们使用FileInputFormat.setInputPaths(JobConf conf, Path... inputPaths) FileInputFormat.addInputPaths(JobConf conf, String commaSeparatedPaths)来设定有多个输入路径的原创 2017-05-11 17:39:15 · 571 阅读 · 0 评论 -
HDFS - Namenode源码解析(转)
最近重温HDFS Namenode的原理,网上找到的这篇博客讲解的挺好,分享给大家。 Namenode的介绍 一个典型的HDFS系统包括一个NameNode和多个DataNode。 NameNode作为HDFS中文件目录和文件分配的管理者,它保存的最重要信息,就是下面两个映射: 文件名=>数据块 数据块=>DataNode列表 其中,文件名=>数据块保存在磁盘上(持久化);但...转载 2019-02-20 14:00:44 · 387 阅读 · 0 评论 -
Hadoop RCFile存储格式详解(源码分析、代码示例)
RCFile RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。 关键词:Record、Columnar、Key、Value。 RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识,我们来看一个例子。 假设我们有这样一张9行3列的Hive数据...转载 2017-05-10 14:49:51 · 1431 阅读 · 0 评论