SparkSQL使用的简单例子

最新推荐文章于 2024-07-08 07:15:00 发布

大写的UFO

最新推荐文章于 2024-07-08 07:15:00 发布

阅读量2.4k

点赞数 2

分类专栏： spark 文章标签： sparksql spark

本文链接：https://blog.csdn.net/UUfFO/article/details/54926116

版权

本文通过实例介绍了SparkSQL如何从json、parquet文件及普通RDD创建DataFrame，详细演示了DataFrame的read和save方法，包括设置数据源和保存模式。此外，还展示了直接使用SQL查询数据源以及parquet文件的读写操作，探讨了Schema Merging和通过Hive Metastore管理数据。最后，给出了从jdbc连接MySQL创建DataFrame的例子。

摘要由CSDN通过智能技术生成

从json文件创建dataFrame

 val df: DataFrame = sqlContext.read.json("hdfs://master:9000/user/spark/data/people.json")
 val people = df.registerTempTable("person")
 val teenegers: DataFrame = sqlContext.sql("select name,age from person")
 teenegers.map(x = "name:" + x(0)+ " " + "age:" + x(1)).collect().foreach(println)

从parquet文件创建dataFrame

 val df: DataFrame = sqlContext.read.parquet("hdfs://master:9000/user/spark/data/namesAndAges.parquet")
 val people = df.registerTempTable("person")
 val teenegers: DataFrame = sqlContext.sql("select name,age from person")
 teenegers.map(x = "name:" + x(0)+ " " + "age:" + x(1)).collect().foreach(println)

从普通RDD创建dataFrame_1

 val people = sc.textFile("hdfs://master:9000/user/spark/data/people.txt")
        .map(_.split(",")).map(p = Person(p(0), p(1).trim.toInt))

最低0.47元/天解锁文章

大写的UFO

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录