利用case class导入有header的txt文件&利用csv创建dataFrame的时候使用schema去定义dataFrame

kopunk

于 2019-07-28 23:09:32 发布

阅读量190

点赞数

分类专栏： spark 大数据学习

本文链接：https://blog.csdn.net/kopunk/article/details/97621051

版权

本文介绍了如何使用Scala中的case class来处理有header的txt文件，通过mapPartitionsWithIndex方法转化为DataFrame。同时，展示了在创建DataFrame时，如何利用case class定义schema，确保数据结构的一致性。

摘要由CSDN通过智能技术生成

1.有header的txt文件创建DataFrame：

利用 mapPartitionsWithIndex

val teacherRdd = sc.textFile("src/test/teacher.txt")
val teacherRddSchema = teacherRdd.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(row => row.split(" ")).map(field => teacher(field(0).toInt,field(1),field(2)))
val teacherDF = teacherRddSchema.toDF()

2.利用csv创建dataFrame的时候，给定case class去定义schema

import org.apache.spark.sql.Encoders

case class student (id:Int, name:String, course:String,score:Int)

val schema = Encoders.product[student].schema
val studentDf = spark.read.format("CSV").option("header",true).schema(schema).load("src/test/student.csv").as[student]
studentDf.printSchema()

完整程序：

import org.apache.spark.{SparkConf, SparkContext}
import org.apache

最低0.47元/天解锁文章

kopunk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用case class导入有header的txt文件&利用csv创建dataFrame的时候使用schema去定义dataFrame

1.有header的txt文件创建DataFrame：利用 mapPartitionsWithIndexval teacherRdd = sc.textFile("src/test/teacher.txt")val teacherRddSchema = teacherRdd.mapPartitionsWithIndex((idx, iter) => if (idx == 0) i...
复制链接

扫一扫

专栏目录