数据处理中的sql函数（mysql，hive，spark，hdfs，yarn）

Xuxixixixixixix

已于 2023-06-01 10:24:34 修改

阅读量291

点赞数

文章标签： hive spark sql

于 2023-05-23 19:58:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16446137/article/details/114647663

版权

常见sql函数对比

HiveSQL和SparkSQL都是用于处理结构化数据的SQL引擎，它们都提供了一系列内置函数来满足不同数据挖掘任务的需求。但是，HiveSQL和SparkSQL内置函数之间有一些区别和不同之处。本文将介绍HiveSQL和SparkSQL函数的区别以及如何在不同场景下选择使用。

处理大规模数据的能力
HiveSQL和SparkSQL都是基于Hadoop生态系统构建的SQL引擎。Hive是基于MapReduce的批处理系统，而Spark是基于内存计算的实时计算系统。对于处理大规模数据的能力，SparkSQL比HiveSQL更具有优势，因为Spark可以将中间结果存储在内存中，从而避免了磁盘读写的IO瓶颈。同时，SparkSQL还可以使用DataFrame和Dataset这些高阶API进行数据处理，使得编写代码更加简单易懂。

函数的种类和数量
HiveSQL和SparkSQL内置函数的种类和数量略有不同。HiveSQL提供了大约200多个内置函数，这些函数可以满足绝大部分的数据处理需求。但是，HiveSQL的函数类型较少，只有简单的数学函数、日期函数、字符串函数、转换函数等。而SparkSQL内置函数类型较多，包括聚合函数、窗口函数、排序函数、分析函数等等，总数超过400个。

函数的语法差别
HiveSQL和SparkSQL函数的语法也有所不同。其中主要区别在于函数的参数类型、函数的返回值类型和函数的名称等。例如，SparkSQL的日期函数和字符串函数中，函数名称和HiveSQL并不相同，另外，SparkSQL中这些函数的返回值类型也和HiveSQL不同。

下面列举了一些常见的函数，在HiveSQL和SparkSQL中的名称和语法的不同点：

字符串函数
HiveSQL和SparkSQL都提供了一系列的字符串函数，如字符串截取、字符串连接、字符串转换等，但两者的函数名称并不相同，并且函数参数的顺序和数据类型也有所不同。例如，HiveSQL的字符串截取函数为SUBSTR(str, start, length)，而SparkSQL中的相应函数为SUBSTR(str, pos, length) 或者 SUBSTRING(str, pos, length)。

日期函数
HiveSQL和SparkSQL都提供了一些常用的日期函数，如日期转换、日期运算等，但是两者函数名称和函数语法并不相同。例如，HiveSQL的日期转换函数为TO_DATE(string, fmt)，而SparkSQL的日期转换函数为TO_DATE(expr) 或者 TO_DATE(string, fmt)。

数学函数
HiveSQL和SparkSQL都提供了一些常用的数学函数，如求平方根、对数运算等，但两者的函数名称也不相同，例如，HiveSQL的求平方根函数为SQRT(x)，而SparkSQL的相应函数为SQRT(x) 或者 SQRT(expr)。

聚合函数
HiveSQL和SparkSQL都提供了一系列的聚合函数，如求和、平均数、最大值、最小值等，但是两者函数名称和函数语法也有所不同。例如，HiveSQL的求平均数函数为AVG(x)，而SparkSQL的求平均数函数为AVG(x) 或者 MEAN(x)。

窗口函数
HiveSQL和SparkSQL都支持窗口函数，但是它们的函数名称和函数语法也不同。例如，HiveSQL的窗口函数为OVER()，而SparkSQL的窗口函数为OVER(PARTITION BY … ORDER BY …)。

分析函数
HiveSQL和SparkSQL都提供了分析函数，可以用来分组计算某一列的排序排名，但是两者的函数名称和函数语法也有所不同。例如，HiveSQL的RANK函数为RANK() OVER (ORDER BY col)，而SparkSQL的相应函数为RANK() OVER (PARTITION BY col ORDER BY col)。

数组函数
SparkSQL提供了一些数组相关的函数，如数组长度、数组查找、数组排序等功能，而HiveSQL并没有此类函数。

需要注意的是，虽然两者的函数名称和函数语法有所不同，但是它们的功能基本是相同的。在实际使用时，应选择其所在的场景和平台来进行选择和使用。
自定义函数
在某些需要特殊需求的情况下，内置函数无法满足我们的需求。此时，HiveSQL和SparkSQL都允许我们自定义函数。但是，它们的自定义函数实现方式略有不同。在HiveSQL中，我们可以使用“create function”语句定义一个自定义函数，该函数可用于所有的Hive查询。而在SparkSQL中，我们需要实现一个用户定义的函数（UDF）来处理数据，并将该函数注册到Spark会话中，才能在SparkSQL中使用。

综上所述，HiveSQL和SparkSQL都是SQL引擎，提供类似的数据处理功能，但在处理大数据方面，SparkSQL有优势，同时在内置函数的种类、数量和语法等方面也有所不同。选择使用哪种SQL引擎取决于你的实际需求，以及你所熟悉的技术栈和生态环境。

以下是 HDFS 和 YARN 常用命令：
HDFS 命令：

hdfs dfs -ls [path] ：列出指定路径下的所有文件和文件夹信息。
hdfs dfs -mkdir [path] ：创建一个目录。
hdfs dfs -put [source] [destination] ：将本地文件复制到 HDFS 上指定的路径下。
hdfs dfs -get [source] [destination] ：将 HDFS 上的文件复制到本地指定的路径下。
hdfs dfs -rm [path] ：删除 HDFS 上的文件或目录。
hdfs dfs -du -h [path] ：显示 HDFS 中的文件和目录的磁盘空间使用情况。
hdfs dfs -cat [path] ：将 HDFS 的文件内容输出到控制台。
hdfs dfs -chown -R [user]:[group] [path] ：将指定路径下的所有文件和目录的所有者和群组更改为给定的用户和组。
hdfs dfsadmin -report ：显示 HDFS 集群中每个节点的磁盘使用情况。

YARN 命令：

yarn application -list ：列出在 YARN 上运行的所有应用程序的详细信息。
yarn application -kill [application ID] ：杀死正在运行的应用程序。
yarn application -status [application ID] ：显示正在运行的应用程序的详细信息，包括启动和结束时间、进度和状态。
yarn node -list ：列出集群中所有节点的详细信息。
yarn node -label [node ID] [label] ：将节点分配到指定的标签中。
yarn rmadmin -getServiceState [service] ：检查 YARN 集群中指定服务的状态。
yarn logs -applicationId [application ID] ：获取指定应用程序的日志。

除此之外，还有很多其他的 HDFS 和 YARN 命令，可以通过运行以下命令来查看所有可用命令列表：

HDFS 命令：hdfs dfs -help
YARN 命令：yarn help

Xuxixixixixixix

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Xuxixixixixixix CSDN认证博客专家 CSDN认证企业博客

码龄10年

12: 原创

29万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

226: 积分

70: 粉丝

49: 获赞

6: 评论

101: 收藏

私信

关注

热门文章

分类专栏

人工智能 3篇
大数据 1篇
spark 1篇
图神经网络 1篇
gnn 1篇
LR 1篇
nlp 1篇

最新评论

因果推断大集合从0-1的因果知识(一篇)
Xuxixixixixixix: 图片表格信息上传失败，需要的可以关注私信
数据处理中的sql函数（mysql，hive，spark，hdfs，yarn）
CSDN-Ada助手: 恭喜您写出了如此有价值的博客！对于数据处理工程师来说，掌握SQL函数的使用是非常重要的。希望您能继续分享更多关于数据处理的实用技巧和经验，让我们的工作更加高效。下一步，可以考虑分享一些数据清洗和预处理方面的内容，这也是数据处理中非常关键的一环。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
Machine Learning-based Selection of Graph Partitioning Strategy Using the Characteristics of Graph D
CSDN-Ada助手: 恭喜您写了这篇关于基于机器学习选择图分割策略的博客。这篇文章很有趣，我学到了很多关于图形分割和机器学习的知识。您的博客非常专业，我非常期待您将来的创作。我建议您可以探讨一些与机器学习相关的实际应用，这将为读者提供更多的启示。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
Machine Learning-based Selection of Graph Partitioning Strategy Using the Characteristics of Graph D
CSDN-Ada助手: 恭喜您写出了这篇有关“基于机器学习的图分割策略选择”主题的博客，文章真的很有深度和见解。接下来，我建议您可以从更深层次的角度探讨一些相关的问题，例如图分割中常见的挑战和解决方案，或者探讨不同的机器学习算法在这个领域的应用。期待您的下一篇文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
LR在排序上的应用
Xuxixixixixixix: 我后面补充下lr的代码

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Xuxixixixixixix 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。