spark读取lzo文件并指定日志记录起始标识符

原创 2018年04月16日 16:29:06

1、读取文件是LzoTextInputFormat.class

2、设置

JavaSparkContext jsc = new JavaSparkContext(conf);
Configuration hconf = jsc.hadoopConfiguration();
hconf.set("textinputformat.record.delimiter", "[*&^%]");
    
hconf.set("io.compression.codecs", "org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzopCodec");
hconf.set("io.compression.codec.lzo.class", "com.hadoop.compression.lzo.LzoCodec");

JavaPairRDD<LongWritable, Text> newAPIHadoopFile = jsc.newAPIHadoopFile(args[4], LzoTextInputFormat.class,LongWritable.class,Text.class, hconf);

由于LzoTextInputFormat默认是按行读取,而我需要按照日志记录起始标识符读取行。

故修改源码:

com.hadoop.mapreduce.LzoTextInputFormat 


com.hadoop.mapreduce.LzoLineRecordReader


实现功能!

spark下读写lzo文件(java)

1、编译安装hadoop-lzo 这个网上已经说的很详细了,具体可以参考这个链接: hadoop使用LZO压缩 http://running.iteye.com/blog/969800 ...
  • xyf123
  • xyf123
  • 2015-10-15 16:52:27
  • 4589

spark开发笔记-scala 读lzo文件两种写法

spark开发笔记-scala 读写lzo文件两种写法 方法一: val files = sc.newAPIHadoopFile("s3n:/// 方法二: val files = sc.newA...
  • yanshu2012
  • yanshu2012
  • 2017-01-06 17:08:24
  • 2441

Spark平台中,对lzo压缩文件的读取--Scala实现

#记录一个坑#在Spark中,有时需要对lzo压缩文件的读取。这里采用的是newAPIHadoopFile()来进行读取 val configuration = new Configuration()...
  • ice_kind
  • ice_kind
  • 2018-03-31 21:27:37
  • 54

pyspark 读写lzo 文件例子

pyspark 读写lzo 文件例子 from pyspark import SparkContext from pyspark import SparkConf conf = SparkCo...
  • yanshu2012
  • yanshu2012
  • 2016-07-08 19:50:21
  • 2459

Spark 读/写 lzo 文件 pairRDD

Spark 读/写 lzo 文件 pairRDD 具体代码 Java SparkConf conf = new SparkConf().setMaster("local").setAp...
  • AbnerSunYH
  • AbnerSunYH
  • 2018-01-10 21:31:38
  • 430

spark & 文件压缩

hdfs中存储的文件一般都是多副本存储,对文件进行压缩,不仅可以节约大量空间,适当的存储格式还能对读取性能有非常大的提升。文本文件压缩snappyjson文本压缩率 38.2%,压缩和解压缩时间短。i...
  • lsshlsw
  • lsshlsw
  • 2016-07-22 10:41:58
  • 4937

hadoop-lzo-0.4.20-SNAPSHOT.jar

  • 2018年03月31日 21:27
  • 189KB
  • 下载

读写lzo

一、读lzo 在 《Hadoop 2.2.0安装和配置lzo》 文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Ha...
  • godspeedlaile9
  • godspeedlaile9
  • 2015-01-22 21:17:05
  • 549

Spark读Lzo压缩格式的文件

第一种方式:val rdd = sc.newAPIHadoopFile("path/*.lzo",classOf[com.hadoop.mapreduce.LzoTextInputFormat], c...
  • do_yourself_go_on
  • do_yourself_go_on
  • 2017-07-07 14:44:44
  • 203

Hadoop使用lzo格式-问题汇总

Hadoop使用lzo格式-问题汇总
  • wisgood
  • wisgood
  • 2013-12-02 20:46:02
  • 7964
收藏助手
不良信息举报
您举报文章:spark读取lzo文件并指定日志记录起始标识符
举报原因:
原因补充:

(最多只允许输入30个字)