part.write java_java – 更改DataFrame.write()的输出文件名前缀

最新推荐文章于 2021-06-22 20:34:32 发布

宏观经济算命椰

最新推荐文章于 2021-06-22 20:34:32 发布

阅读量521

点赞数

文章标签： part.write java

本文链接：https://blog.csdn.net/weixin_35651329/article/details/114784518

版权

通过Spark SQL DataFrame.write()方法生成的输出文件以“part”basename前缀开头.例如

DataFrame sample_07 = hiveContext.table("sample_07");

sample_07.write().parquet("sample_07_parquet");

结果是：

hdfs dfs -ls sample_07_parquet/

Found 4 items

-rw-r--r-- 1 rob rob 0 2016-03-19 16:40 sample_07_parquet/_SUCCESS

-rw-r--r-- 1 rob rob 491 2016-03-19 16:40 sample_07_parquet/_common_metadata

-rw-r--r-- 1 rob rob 1025 2016-03-19 16:40 sample_07_parquet/_metadata

-rw-r--r-- 1 rob rob 17194 2016-03-19 16:40 sample_07_parquet/part-r-00000-cefb2ac6-9f44-4ce4-93d9-8e7de3f2cb92.gz.parquet

我想更改使用Spark SQL DataFrame.write()创建文件时使用的输出文件名前缀.我尝试在Spark上下文的hadoop配置上设置“mapreduce.output.basename”属性.例如

public class MyJavaSparkSQL {

public static void main(String[] args) throws Exception {

SparkConf sparkConf = new SparkConf().setAppName("MyJavaSparkSQL");

JavaSparkContext ctx = new JavaSparkContext(sparkConf);

ctx.hadoopConfiguration().set("mapreduce.output.basename", "myprefix");

HiveContext hiveContext = new org.apache.spark.sql.hive.HiveContext(ctx.sc());

DataFrame sample_07 = hiveContext.table("sample_07");

sample_07.write().parquet("sample_07_parquet");

ctx.stop();

}

这并没有改变生成文件的输出文件名前缀.

有没有办法在使用DataFrame.write()方法时覆盖输出文件名前缀？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宏观经济算命椰

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

（DataFrame部分）从文件中读取文件，写入文件，然后再从写入的文件中读取文件，在控制台打印出【Java版纯代码】

wyqwilliam的博客

07-25

1676

package com.bjsxt; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import org.apache.spark.sql.SQLContext; import org.apac...

Python pandas.DataFrame.to_sql用法

weixin_42410014的博客

07-19

7869

Python pandas.DataFrame.to_sql用法

参与评论您还未登录，请先登录后发表或查看评论

040 DataFrame中的write与read编程

weixin_34166472的博客

04-27

374

一：SparkSQL支持的外部数据源 1.支持情况　　 2.External LIbraries 　　不是内嵌的，看起来不支持。　　但是现在已经有很多开源插件，可以进行支持。 3.参考材料 ·　　支持的格式：https://github.com/databricks 二：准备 1.启动服务　　RunJar是metastore服务，在hive那边开启。　　只需要启动三个服务就可以...

python - 输入输出之字符串前缀u、r、b、f含义

开码河粉

03-08

2043

1、字符串前加 u 例子：u"字符串中有中文" Python3中，所有字符串默认都是unicode字符串。 2、字符串前加 r 例子：r"\n\t" 前缀r表示该字符串是原始字符串，即\不是转义符，只是单纯的一个符号。常用于特殊的字符如换行符、正则表达式、文件路径。 3、字符串前加 b 例子：b'<h1>Hello World!</h1>' 前缀b表示该字符串是bytes类型。 4、字符串前加 f 例子： >>> acc...

Spark（三）-- SparkSQL扩展（数据读写） --DataFrameReader和DataFrameWriter(一)

happy-vicky的博客

09-26

4224

7.1 初识 DataFrameReader 目标理解DataFrameReader的整体结构和组成 SparkSQL的一个非常重要的目标就是完善数据读取, 所以SparkSQL中增加了一个新的框架, 专门用于读取外部数据源, 叫做DataFrameReader @Test def reader1() : Unit = { //1.创建SparkSess...

Spark——DataFrame 读写和保存数据

静远小和尚的博客

07-15

5812

原文链接：https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6849695183043297804 本文主要从以下几个方面介绍Spark中的DataFrame读写和保存第一，DataFrame的介绍第二，Spark所支持的读写文件格式及示例第一，DataFrame的介绍 DataFrame的前身是SchemaRDD，从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是：Data

df.to html函数,pd.DataFrame 数据的保存和读取((df.to_csv、df.to_json、df.to_html、df.to_excel))...

weixin_39520149的博客

06-22

2670

DataFrame数据的保存和读取df.to_csv写入到csv文件pd.read_csv读取csv文件df.to_json写入到json文件pd.read_json读取json文件df.to_html写入到html文件pd.read_html读取 html文件df.to_excel 写入到 excel 文件pd.read_excel 读取 excel 文件pa...

DataFrame.to_excel()用法说明

热门推荐

Leon_wp的博客

01-20

2万+

DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=No.

python实现excel函数_Python pandas.DataFrame.to_excel函数方法的使用

weixin_39608116的博客

11-25

1093

dataframe java_Pandas库之DataFrame

weixin_42122340的博客

02-16

1754

1 简介DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。或许说它可能有点像matlab的矩阵，但是matlab的矩阵只能放数值型值(当然matlab也可以用cell存放多类型数据)，DataFrame的单元格可以存放数值、字符串等，这和excel表很像。同时DataFrame可以设置列名columns与行名index，可以通过像matlab一样通过...

java dataframe 遍历,03_dataframe

weixin_32712615的博客

03-13

1068

Spark SQL一、概述spark sql 是用于操作结构化数据的程序包通过spark sql ，可以使用SQL 或者 HQL 来查询数据，查询结果以Dataset/DataFrame 的形式返回它支持多种数据源，如Hive 表、Parquet 以及 JSON 等它支持开发者将SQL 和传统的RDD 变成相结合Dataset：是一个分布式的数据集合它是Spark 1.6 中被添加的新接口它提供了...

DataFrame的read和write&SparkSQL&存储格式的转换

jim8973的博客

04-19

4527

DataFrame 在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化...

【spark】五 RDD、DataFrame.write 存储API的使用与区别

百物易用是苏生

04-28

8016

主要翻译自官网 pyspark 2.3.1 文档 https://spark.apache.org/docs/2.3.1/api/python/pyspark.html#pyspark.RDD 一 pyspark.RDD 保存hdfs文件 ①saveAsHadoopDataset(conf, keyConverter=None, valueConverter=None) 输入RDD[(K,V)]...

spark-mr-OutputFormat的文件名是如何生成的？

DCHAO的博客

05-23

348

1. TextOutputFormat中，如果设置了压缩，会给extension变量赋值，添加到文件名后面 2. 输出流fileout中的文件名来源于Path file = getDefaultWorkFile(job, extension); 3. getDefaultWorkFile中来源于new Path(Path parent, String child) new Path(committer.getWorkPath(), getUniqueFile(context,getOutputName(c

Hadoop源码分析——MapReduce输入和输出

sinat_34045444的博客

01-18

742

Hadoop中的MapReduce库支持集中不同的格式的输入数据。例如，文本模式的输入数据的每一行被视为一个key/value键值对。key是文件的偏移量，value是那一行的内容。另一种常见的格式是以key进行排序来存储key/value键值对的序列。每种输入类型的实现都必须能够把数据分割成数据片段，并能够由单独的Map任务来对数据片段进行后续处理。 1. 输入格式-InputFormat 当...

[Hadoop系列]Hadoop的MapReduce中多文件输出

重新开放

01-08

2万+

　　inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。　　Hadoop默认的输出是TextOutputFormat，输出文件名不可定制。hadoop 0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat，可以输出多份文件且可以自定义文件名，但是从hadoop

MapReduce原理分析：自定义输出格式OutputFormat

机器熊的技术大杂烩

04-12

2786

输出格式OutputFormat 在MapReduce框架中，OutputFormat负责把Reducer处理完成的Key-Value写出到本地磁盘或HDFS上，默认计算结果会以part-000的命名输出成多个文件，并且输出的文件数量与Reduce数量一致。000是关联到某个Reduce任务的分区的id。 MapReduce中提供了多种输出格式，用户可以灵活的定义文件输出的路径、文件名、输出格式等...

MapReduce修改输出的文件名

weixin_30322405的博客

02-11

321

MapReduce默认输出的文件名称格式如下：part-r-00000 自定义名称，比如editName，则输出的文件名称为：editName-r-0000，此方法没有彻底修改整个文件名，只修改了一部分方法如下重写TextOutPutFormat的setOutPutName方法，因为setOutPutName是protected方法，所以只能通过重写的方式来修改代码如下 /**...

Hadoop2.6.0学习笔记（六）TextOutputFormat及RecordWriter解析

maenlai0086的博客

03-11

1395

MapReduce提供了许多默认的输出格式，如TextOutputFormat、KeyValueOutputFormat等。MapReduce中输出文件的个数与Reduce的个数一致，默认情况下有一个Reduce，输出只有一个文件，文件名为part-r-00000，文件内容的行数与map输出中不同key的个数一致。如果有两个Reduce，输出的结果就有两个文件，第一个为part-r-00000，第...

def add_audit_columns(self, dataframe, write_params): try: print(write_params) audit_source_sys_name = write_params.get("audit_src_sys_name", "") or write_params.get( "table_full_name") or write_params.get("data_source_name", "") print("audit_source_sys_name - " + audit_source_sys_name) if ("audit_src_sys_name".upper() in (name.upper() for name in dataframe.columns)): print("audit_src_sys_name column is present. Adding present layer details....") audit_dataframe = DataSink_with_audit(self.spark).add_audit_col_append(dataframe, audit_source_sys_name, write_params) print("Tables is updated.") else: print("Adding column - audit_src_sys_name.") audit_dataframe = DataSink_with_audit(self.spark).add_audit_col_fill(dataframe, audit_source_sys_name, write_params) print("audit_src_sys_name added.") print("Added Audit Cols") return audit_dataframe except Exception as e: raise Exception("job failed with error {}".format(e))