Spark复习五：DataFrame API操作

最新推荐文章于 2024-12-19 15:25:02 发布

IT change the world

最新推荐文章于 2024-12-19 15:25:02 发布

阅读量590

点赞数 2

分类专栏： spark 文章标签： spark 大数据 hadoop zookeeper

本文链接：https://blog.csdn.net/csdnliu123/article/details/105605039

版权

spark 专栏收录该内容

16 篇文章

订阅专栏

本文详细介绍如何使用Apache Spark进行数据处理，包括直接读取CSV文件、选择DataFrame中的特定字段、显示数据、处理无表头文件及从RDD转换为DataFrame的方法。同时，文章还展示了如何将数据转换为表格形式并进行展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1:直接读取文件：

scala> val userDF=spark.read.format("csv").option("header","true").option("delimiter",",").load("file:///home/data/users.csv")
userDF: org.apache.spark.sql.DataFrame = [user_id: string, locale: string ... 5 more fields]

2根据已有的DF选择部分字段生成新的DF：

|-- user_id: string (nullable = true)
|-- locale: string (nullable = true)
|-- birthyear: string (nullable = true)
|-- gender: string (nullable = true)

scala> val userDF2=userDF.select("user_id","locale","birthyear","gender")
userDF2: org.apache.spark.sql.DataFrame = [user_id: string, locale: string ... 2 more fields]

scala> userDF2.printSchema
root
|-- user_id: string (nullable = true)
|-- locale: string (nullable = true)
|-- birthyear: string (nullable = true)
|-- gender: string (nullable = true)

3：显示数据（默认显示 20条）：

scala> userDF2.show

4：读取没有表头的文件作处理：

scala> import org.apache.spark.sql.functions.col
import org.apache.spark.sql.functions.col

scala> val data2=data1.select(col("_c0").as("interested"),col("_c1").as("user_id"),col("_c2").as("event_id"))
data2: org.apache.spark.sql.DataFrame = [interested: string, user_id: string ... 1 more field]

scala> data2.printSchema
root
|-- interested: string (nullable = true)
|-- user_id: string (nullable = true)
|-- event_id: string (nullable = true)

scala> data2.show(5,false)

5.间接读取其他RDD，生成新的DF：

scala> val wf=sc.textFile("file:///home/data/test.txt").flatMap(line =>line.split(" ").map(x =>(x,1))).reduceByKey(_+_)
wf: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[35] at reduceByKey at <console>:28

scala> wf.foreach(println)
(d,2)
(up,1)
(a,4)
(b,1)
(day,2)
(hello,8)
(good,2)
(study,1)
(c,1)

1:由RDD-》DF：

scala> val wcDF=wf.toDF
wcDF: org.apache.spark.sql.DataFrame = [_1: string, _2: int]

scala> wcDF.printSchema
root
|-- _1: string (nullable = true)
|-- _2: integer (nullable = false)

2.DF -->表格化数据处理：
scala> val wc=wcDF.withColumnRenamed("_1","word").withColumnRenamed("_2","count")
wc: org.apache.spark.sql.DataFrame = [word: string, count: int]

scala> wc.printSchema
root
|-- word: string (nullable = true)
|-- count: integer (nullable = false)

scala> wc.show