常用的spark数据读取和保存

最新推荐文章于 2024-03-06 11:18:16 发布

闲人木东

最新推荐文章于 2024-03-06 11:18:16 发布

阅读量836

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/haohao914/article/details/78351114

版权

本文汇总了作者在实际工作中经常使用的Spark数据读取和保存的方法，涵盖了多种数据源的处理技巧。

摘要由CSDN通过智能技术生成

个人收录自己常用的集中数据保存和读取方式

数据保存和读取

1、从外部读取数据之textFile
读取
var departmentData = getLoadDepartment(sqlCon,"hdfs://cnsz17pl1443:8020/spark/ddt/ASRUA_TM_DEPARTMENT")

def getLoadDepartment(spark: SparkSession, path: String): DataFrame = {
import spark.implicits._
val departmentDF=spark.read.textFile(path).map(_.split("\u0001")).map(row =>departmentType(getString(row(0)), getString(row(1)), getString(row(2)), getString(row(3)))).persist(MEMORY_ONLY_SER)

val departmentData = departmentDF.toDF("dept_id","division_code","area_code","hq_code")
departmentData
}

保存
textFile.saveAsTextFile("file:///home/common/coding/coding/Scala/word-count/writeback")

2、hdfs的parquet类型文件读取和写入
读取 read().format（）来源（json，jsonRDD，parquet）

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

闲人木东

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
常用的spark数据读取和保存

个人收录自己常用的集中数据保存和读取方式1、从外部读取数据之textFile 读取var departmentData = getLoadDepartment(sqlCon,"hdfs://cnsz17pl1443:8020/spark/ddt/ASRUA_TM_DEPARTMENT") def getLoadDepartment(spark: SparkSession,
复制链接

扫一扫