Spark装载数据源

最新推荐文章于 2020-08-20 20:11:48 发布

throws-Exception

最新推荐文章于 2020-08-20 20:11:48 发布

阅读量113

点赞数 1

分类专栏： Spark # Spark 零碎知识点文章标签： spark 大数据

本文链接：https://blog.csdn.net/Shemon_zjw/article/details/107669709

版权

Spark 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

Spark 零碎知识点

7 篇文章 0 订阅

订阅专栏

Spark装载CSV数据源

文件预览

在这里插入图片描述

使用SparkContext

val lines = sc.textFile("file:///home/kgc/data/users.csv")
val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))
val fields = lines.filter(l=>l.startsWith("user_id")==false).map(l=>l.split(","))  //移除首行，效果与上一行相同

装载JSON数据源

正常json文件

文件预览

在这里插入图片描述

代码加载

val frame = spark.read.format("json").load("D:\\study files\\Spark\\test\\test.json")
frame.show()

在这里插入图片描述

部分包含json文件

文件预览

在这里插入图片描述

代码实现

val txt = spark.sparkContext.textFile("D:\\study files\\Spark\\test\\test.log")
val frame = txt.map(_.split(" ")).map(x=>(x(0),x(1),x(2),x(3))).toDF("no","action","info","times")
frame.show()

在这里插入图片描述

关于算子get_json_object的使用：（将数据转为二维表）

val txt = spark.sparkContext.textFile("D:\\study files\\Spark\\test\\test.log")
val frame = txt.map(_.split(" ")).map(x=>(x(0),x(1),x(2),x(3))).toDF("no","action","info","times")
frame.select($"no",$"action",
      get_json_object($"info","$.name").as("name"),
      get_json_object($"info","$.age").as("age"),$"times"
    ).show()

在这里插入图片描述

throws-Exception

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark装载数据源

Spark装载CSV数据源文件预览使用SparkContextval lines = sc.textFile("file:///home/kgc/data/users.csv")val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))val fields = lines.filter(l=>l.
复制链接

扫一扫