Spark SQL简介及实践

最新推荐文章于 2020-10-30 09:04:30 发布

宋哥哥丢了金箍棒

最新推荐文章于 2020-10-30 09:04:30 发布

阅读量633

点赞数

分类专栏：大数据开发实践文章标签： spark-sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31706571/article/details/78951419

版权

本文介绍了Spark SQL的基础知识，包括DataFrame的概念、创建方法以及常用的DSL和SQL风格操作。通过实例展示了如何从文件读取数据，注册DataFrame，执行SQL查询，如筛选、分组等，并详细说明了如何将DataFrame数据写入MySQL数据库。

摘要由CSDN通过智能技术生成

这里写图片描述

一、Spark SQL概述

1、Spark SQL是spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

2、在学习Hive的过程中，我们了解到它是将Hive SQL 转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低运行效率。因此Spark SQL就诞生出来，它是将Spark SQL转换成RDD，然后提交到集群执行，并且执行效率非常快。

二、是DataFrame概述

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统的二维表格，除了数据以外，还记录数据的结构信息，即schema。同事，与Hive类似，DataFrame也支持嵌套数据类型（struct、array、map）。从API易用性的角度上看，DataFrame API提供的是一套高层关系操作，比函数式的RDD API要更加友好，门槛更低。

这里写图片描述

三、创建DataFrame

Spark SQL中SQLContext是创建DataFrame和执行SQL的入口，在spark-1.5.2中已经内置一个sqlContext

这里写图片描述
1、本地创建一个文件，有三列分别是id、name、age用空格分隔，然后上传到hdfs上

hadoop fs -put person.txt

2、在spark shell 执行下面命令，读取数据，将每一行的数据使用分隔符分割


val lineRDD = sc.textFiel("hdfs://localhost:8020/person.txt").map(_.split(" "))

3、定义一个case class (相当于表的schema)

case class Person(id: Int, name:

最低0.47元/天解锁文章

宋哥哥丢了金箍棒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL简介及实践

一、Spark SQL概述 1、Spark SQL是spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 2、在学习Hive的过程中，我们了解到它是将Hive SQL 转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce计算过程中大量的中间磁盘落地过程消耗了大量
复制链接

扫一扫

专栏目录

宋哥哥丢了金箍棒

博客等级

码龄9年

25
原创

17
点赞

40
收藏

12
粉丝

关注

私信

热门文章

分类专栏

最新评论

spark伪分布式搭建及spark页面8080端口访问出错的问题
不关机: 在vi下输入没反应唉，怎么办
maven项目正确使用Lombok中@Data注释
zzs007china 回复 schangxiang: IDE别装那么深，路径里面尽量不要有空格，有的路径里空格编译完就成了“%20”了，然后会报找不到路径错误
maven项目正确使用Lombok中@Data注释
schangxiang 回复 schangxiang: 如果安装完启动不了，就检查下eclipse.init最后一行是不是变成类似这种了：-javaagent:D:\Program Files \(x86\)\eclipse\lombok.jar，这里的program files 路径是错误的，更改成正确地地址就行了
maven项目正确使用Lombok中@Data注释
schangxiang 回复 jiraiya005: ini目录都有这行，并且jar包也在目录下，但是eclipse启动不了了。。。
maven项目正确使用Lombok中@Data注释
宋哥哥丢了金箍棒回复 weixin_39249174: idea应该有相关的插件，在Plugins里面搜索：Lombook Plugin，再引入相应的pom就行

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。