Spark
文章平均质量分 84
田野里的秋刀鱼仔
这个作者很懒,什么都没留下…
展开
-
通过StructType直接指定Schema
Spark SQL能够将含Row对象的RDD转换成DataFrame,并推断数据类型。通过将一个键值对(key/value)列表作为kwargs传给Row类来构造Rows。key定义了表的列名,类型通过看第一列数据来推断。(所以这里RDD的第一列数据不能有缺失)未来版本中将会通过看更多数据来推断数据类型,像现在对JSON文件的处理一样。package com.wl.sparkimport ja...原创 2018-04-07 17:16:20 · 11520 阅读 · 1 评论 -
通过反射推断Schema
使用反射来推断包含特定对象类型的RDD的模式(schema)。适用于写spark程序的同时,已经知道了模式,使用反射可以使得代码简洁。结合样本的名字,通过反射读取,作为列的名字。这个RDD可以隐式转化为一个SchemaRDD,然后注册为一个表。表可以在后续的sql语句中使用。代码实现:package com.wl.sparkimport org.apache.spark.rdd.RDDimp...原创 2018-04-07 16:33:21 · 705 阅读 · 0 评论