大数据开发之sparkSQL的使用分享

最新推荐文章于 2024-06-18 08:45:00 发布

at小白在线中

最新推荐文章于 2024-06-18 08:45:00 发布

阅读量227

点赞数

原文链接：http://www.atguigu.com

版权

大数据专栏收录该内容

154 篇文章 7 订阅

订阅专栏

SparkSQL，使用SQL来完成大数据操作

Spark之前使用RDD操作大数据，非常方便，但是也有各种问题，例如RDD每次读取的都是字符串，以及语法比较比较麻烦。大数据培训针对这种情况，spark在新版本中升级RDD为DataFrame和DataSet，并使用SQL的方式去操作数据

DataFrame，RDD的升级版，分布式的数据集，并且以列的方式组合的，类似于二维表格式，除数据外保存数据结构信息

DataSet，DataFrame扩展，最新的数据抽象，相对于DataFrame，DataSet会记录字段的数据类型，并进行严格错误检查

三者的关系是RDD进化 >>> DataFrame ，DataFrame进化 >>> DataSet。

当然这里也不是说RDD不用了，而是把RDD转为底层处理，所以同学们还是需要先理解什么是RDD

常用方法
DataSet，DataFrame 的使用是依赖于SparkSession的，所以我们需要先创建SparkSession

val spark = new SparkContext(
new SparkConf().setMaster("local")
.setAppName("taobao")
)
read.csv("路径")

val data = spark.read.csv("data/A.csv")

val data = spark.read
.option("header","true") // 设置读取首行，这里的声明用于把数据首行作为列名
.csv("data/A.csv")

show(num)

显示顶部num行数据
map(func)

操作和RDD中类似，不同的是需要隐式转换，在代码前加上
import spark.implicits._

data.map(
x => { // raw 可以通过下标获得到对应中，不需要切分
(x.getString(0),x.getString(1).toInt)
}
)
toDF("列名"...)

转换成DataFrame类型，并设置列名
select(col: String, cols: String*): DataFrame

查询指定列并返回数据

val r2 = data.select("名称",
"人均价格")
r2.show(10)
selectExpr(exprs: String*): DataFrame

执行原生的SQL中函数

data.selectExpr("count(name)")
data.selectExpr("avg(age)")

rdd

把DataFrame和DataSet转换成RDD类型
printSchema()

查看表结构
root
|-- age: long (nullable = true)
|-- name: string (nullable = true)

filter(Str)

执行过滤
filter("age>10")
filter("age>10 and name='张三'")
sum("列名") \ avg("列名") \ max("列名") \ min("列名") \ count()

针对列进行求和
平均值
最大值
最小值
数量

data.groupBy("age").sum("age").show()
data.groupBy("age").avg("age").show()
....

orderBy("列名")

排序

val r2 = data.map(
x => {
(x.getString(0),x.getString(1).toInt)
}
).toDF("名称","评论数")
.orderBy("评论数")
r2.show(10)

这里注意如果需要降序需要
val r2 = data.map(
x => {
(x.getString(0),x.getString(1).toInt)
}
).toDF("名称","评论数")
.orderBy(desc("评论数"))
r2.show(10)
注意导入import org.apache.spark.sql.functions.desc

除了上述的方法外，Spark还支持直接使用SQL的方式操作数据，方法如下
createOrReplaceTempView(str)

创建临时表，注意使用SQL的时候需要根据当前数据创建临时表，这样才可以在SQL里面使用
data.createOrReplaceTempView("user")

sql(str)

在当前数据集上执行SQL语句
val result = spark.sql("select name from user")
result.show()

val count = spark.sql("select count(*) from user")
count.show()

spark.udf.register(fName,func)

自定义一个函数，用于SQL中处理

spark.udf.register("f1",(x:String) => (x+"a"))
val result = spark.sql("select f1(name) from user")
result.show()

原创作者：浩哥

at小白在线中

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据开发之sparkSQL的使用分享

SparkSQL，使用SQL来完成大数据操作Spark之前使用RDD操作大数据，非常方便，但是也有各种问题，例如RDD每次读取的都是字符串，以及语法比较比较麻烦。大数据培训针对这种情况，spark在新版本中升级RDD为DataFrame和DataSet，并使用SQL的方式去操作数据DataFrame，RDD的升级版，分布式的数据集，并且以列的方式组合的，类似于二维表格式，除数据外保存数据结构信息DataSet，DataFrame扩展，最新的数据抽象，相对于DataFrame，DataSet会
复制链接

扫一扫

专栏目录