大数据最新用spark进行数据查询常用语法总结(1)，2024年最新一线互联网大厂面试真题系统收录

2401_84185471

于 2024-05-12 02:28:30 发布

阅读量246

点赞数 4

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84185471/article/details/138737206

版权

程序员专栏收录该内容

112 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

select：查看具体列数据
toDF：对字段命名(搭配常用与groupby–agg–toDF)
withColumn：新增列名
printSchema: 打印列名信息
dropDuplicates：数据列数去重
limit：数据看前N条
collect：所有数据收集到数组
head==take：查看前N行数据
sample：随机采样，fraction按比例采样
selectExpr：选择列名字段，更改列名调整小数位
unionByName: 两两之间相同列名进行合并
describe：查看数据个数、均值、标准差、最小、最大值
summary：查看数据个数、均值、标准差、最小、25%、50%、75%、最大值

在工作中用spark对数据查询，所使用的常用语法进行整理归纳如下：

show：数据显示

data = spark.sql("""select \* from temp.tables""")
data.show(3)

# 转成pandas方式
# df = data.toPandas()
# df.head(3)

distinct：数据行数去重

data = spark.sql("""select \* from temp.tables""").distinct()
data.show(3)

#or

data = spark.sql("""select \* from temp.tables""")
data  = data.distinct()
data.show(3)

count：看行数

data = spark.sql("""select \* from temp.tables""")
data.count()

select：查看具体列数据

data = data.select('dt', 'order\_money')
data.show(3)

toDF：对字段命名(搭配常用与groupby–agg–toDF)

data = spark.sql("""select \* from temp.tables""")
df = data.group('dt').agg(fn.countDistinct('user\_id'), fn.sum('order\_money')).toDF('dt', 'user\_uv\_count', 'order\_money\_sum')
df.show(3)

withColumn：新增列名

df = df.withColumn('avg\_money', (df.order_money_sum / df.user_uv_count).cast('decimal(14,4)'))
df.show(3)

printSchema: 打印列名信息

df.printSchema()

dropDuplicates：数据列数去重

data = spark.sql("""select \* from temp.tables""")
data.dropDuplicates(['city']).show()

limit：数据看前N条

data = spark.sql("""select \* from temp.tables""").limit(10)
data.show(3)

collect：所有数据收集到数组

data = spark.sql("""select \* from temp.tables""")
data.collect().show(3)

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

需要这份系统化资料的朋友，可以戳这里获取

2401_84185471

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大数据最新用spark进行数据查询常用语法总结(1)，2024年最新一线互联网大厂面试真题系统收录

件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**
复制链接

扫一扫