spark sql对seq值的包装

最新推荐文章于 2024-07-31 15:54:40 发布

白乔

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量8.4k

点赞数 1

分类专栏：大数据技术与系统

本文链接：https://blog.csdn.net/bluejoe2000/article/details/77511733

版权

博客探讨了Spark SQL如何处理seq(s1, s2, s3, ...)的值，指出seq的每个元素会被转化为Row。若元素是简单值，Row包含一个value列；若为N-Tuple，Row则含N列。对于一元组，Spark SQL将其视为非元组，生成单列Row。文章通过测试用例进行了验证。" 138776321,7337247,Elasticsearch索引原理与实战解析,"['大数据', '搜索引擎', 'Elasticsearch', '搜索算法', '日志处理']

摘要由CSDN通过智能技术生成

spark sql对seq(s1, s2, s3, …)值的包装，seq的每个元素si会被包装成一个Row
如果si为一个简单值，则生成一个只包含一个value列的Row
如果si为一个N-Tuple，则生成一个包含N列的Row

特别的，如果N-Tuple是一元组，则视为非元组，即生成一个只包含一个value列的Row

scala> Seq(("bluejoe"),("alex")).toDF().show
+-------+
|  value|
+-------+
|bluejoe|
|   alex|
+-------+

scala> Seq("bluejoe","alex").toDF().show
+-------+
|  value|
+-------+
|bluejoe|
|   alex|
+-------+

scala> Seq(("bluejoe",1),("alex",0)).toDF().show
+-------+---+
|     _1| _2|
+-------+---+
|bluejoe|  1|