spark将计算结果写入到hdfs的两种方法

最新推荐文章于 2022-09-18 00:56:17 发布

weixin_30263277

最新推荐文章于 2022-09-18 00:56:17 发布

阅读量2.5k

点赞数 1

文章标签：大数据 java python

原文链接：http://www.cnblogs.com/luckuan/p/5252580.html

版权

本文介绍了Spark将计算结果以LZO压缩格式写入HDFS的两种方法。第一种方法存在不生成index文件和文件名不可自定义的问题；第二种方法通过直接调用LzopOutputstream和HDFS API，解决了这些问题，允许自定义文件名并能生成索引文件。此外，还提及了如何处理输出目录的存在与否。

摘要由CSDN通过智能技术生成

spark将计算结果写入到hdfs的两种方法
第一种方法：

rdd.saveAsTextFile(path, classOf[com.hadoop.compression.lzo.LzopCodec])

这种方法有这么几个问题

1、生成的lzo文件不会创建index文件，需要手动进行创建。

2、每个文件的名称不能自定义。

第二种方法是直接调用LzopOutputstream的接口和hdfs的api，直接操作hdfs文件。可以规避以上几个问题。

 def main(args: Array[String]) {
    //保存的路径
    val basePath = "/tmp/kuan2"
    //设置日志级别
    //    Example.setStreamingLogLevels()
    //创建sparkConf
    val sparkConf = new SparkConf

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30263277

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

spark在hdfs新建文件并写入内容

yy的博客

01-17

827

spark

spark java 写入hdfs_解决Spark Streaming写入HDFS的小文件问题

weixin_28853079的博客

02-19

1101

今天仍然处于感冒状态，打开电脑随便写一篇，然后滚回床上休息。我们都知道，在HDFS中不宜存储大量的小文件。所谓小文件，就是大小远小于dfs.block.size的文件。如果有大量小文件的话，会浪费block，使元数据增加，挤占宝贵的NameNode内存。另外，大文件能够发挥磁盘顺序读写的优势，小文件会产生很多随机读写，性能下降。在我们的数仓体系中，有一部分业务的日志数据来源是RocketMQ。我们...

参与评论您还未登录，请先登录后发表或查看评论

将应用程序提交到spark环境并将结果输出到hdfs

夢の殇

01-15

6159

我们在“hadoop学习1--hadoop2.7.3集群环境搭建” “spark学习1--centOS7.2下基于hadoop2.7.3的spark2.0集群环境搭建” 中已经将hadoop、spark的集群环境都搭建起来了，jdk用的是1.7版本的。 1.启动hadoop集群 centOS7服务器3台 master 192.16

Spark读取服务器文件,将应用程序提交到spark环境并将结果输出到hdfs

weixin_34520664的博客

08-04

637

我们在“hadoop学习1--hadoop2.7.3集群环境搭建” “spark学习1--centOS7.2下基于hadoop2.7.3的spark2.0集群环境搭建” 中已经将hadoop、spark的集群环境都搭建起来了，jdk用的是1.7版本的。1.启动hadoop集群centOS7服务器3台master 192.168.174.132node1 192.168.174.1...

Spark中直接操作HDFS

weixin_34351321的博客

11-28

586

Spark作为一个基于内存的大数据计算框架，可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据：通过Hadoop方式操作已经存在的文件目录 val path = new org.apache.hadoop.fs.Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSy...

spark streaming 写hdfs问题

leone911的博客

06-07

3817

spark streaming 里面在做 foreach 操作时要注意数据与节点与进程「jvm」之间的关系；「这一点往往大家比较容易混淆」我总结了一下，供大家参考 dstream.foreachRDD { rdd => do something.....// 在driver内执行 rdd.foreach { recordsinworker =>

java spark 消费kafka_spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)

weixin_29813635的博客

02-24

666

1.写在前面在spark streaming+kafka对流式数据处理过程中，往往是spark streaming消费kafka的数据写入hdfs中，再进行hive映射形成数仓，当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中，如果是普通的rdd则API为saveAsTextFile()，如果是PairRDD则API为saveAsHadoopFile()。当然高版本的sp...

spark streaming消费kafka的数据并写入HDFS和直接写hive表（scala版本）

Without_1113的博客

01-01

2204

首先我消费的kafka的数据的类型为json类型数据话不多说直接上代码 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"&gt.

spark写入hdfs文件小文件解决办法

jiangmeng0606的博客

01-26

6782

我们在使用spark写入hdfs文件时，会经常由于partition的数目问题，导致最后保存在hdfs中时产生了很多小文件，之前也用过repartition的方法，但是会出现虽然会大量减少生成文件的数目，但是会使得最后保存文件这一步的效率很低，主要也是当repartition数目很小时，task任务数目也减少了，每个task执行起来的时间变长了。我常识在spark写入hdfs文件后，再合并这些小...

spark 加载多个目录； RDD输出到hdfs文件压缩

u012075079的专栏

08-30

5784

(1) spark textFile加载多个目录：其实很简单，将多个目录（对应多个字符串），用,作为分隔符连接起来 val inputPath = List("hdfs://localhost:9000/test/hiveTest", "hdfs://localhost:9000/test/hiveTest2") .mkString(",

Spark SQL 操作HDFS的三种方式（八）

RivenDong

07-27

2733

文章目录1. 创建测试数据2. IDEA配置3. 实例代码3.1 通过反射方式将RDD转换成DataFrame3.2 通过创建Schema自定义格式的方式3.3 通过读取json文件的方式创建4. 注意 1. 创建测试数据 vi users 1 lhd 130 1997-03-02 2 gdh 180 1996-08-24 3 cjb 160 1997-07-16 4 ymj 98 1997-06-06 5 syz 99 1996-02-28 6 hl 120 1995-01-03 hadoop fs

【大数据开发】SparkCore——写入HDFS、自定义分区器、RDD算子、TopN综合练习

白色风车

10-10

560

在桌面创建一个文件，内容如下 hello world java hadoop java spark hadoop SPARK HADOOP JAVA LINUX SPARK JAVA HELLO HBASE CENTOS LINUX hbase Spark Java Hello Spark Scala Hadoop MapReduce mapreduce 123 456 789 123 12 统计每一个单词出现的次数，不要统计数字的次数，忽略大小写(spark、Spark、SPARK是同一个单词，..

【转载】spark读取HDFS文件和保存数据到HDFS

chongjiapi1753的博客

11-24

1082

def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set("spark.app.name", "...

spark常用RDD算子 - saveAsTextFile、saveAsObjectFile 可保存到本地文件或hdfs系统中

小哇

08-13

4126

saveAsTextFile 函数原型 def saveAsTextFile(path: String): Unit def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit saveAsTextFile用于将RDD以文本文件的格式存储到文件系统中。从源码中可以看到，saveAsTextFile函数是依赖于saveAsHadoopFile函数，由于saveAsHadoopFile函数接受Pair..

Spark文件保存到本地或HDFS：saveAsTextFile和saveAsObjectFile

qq_43012693的博客

11-09

8327

scala版本： val rdd = sc.parallelize(1 to 10) rdd.saveAsTextFile("data1/save1")//保存在本地 //todo 保存在hdfs上设置了两个分区，所以会有两个文件 rdd.saveAsTextFile("hdfs://hadoop01:9000/data/save/save1") //todo saveAsObjectFile 对于HDFS，默认采用SequenceFile保存。 rdd.saveAsObje

spark写入hdfs