spark DataFrame用法

最新推荐文章于 2024-07-15 02:26:28 发布

无名大盗

最新推荐文章于 2024-07-15 02:26:28 发布

阅读量3.4w

点赞数 1

分类专栏：大数据文章标签： spark parquet DataFrame SQL

本文链接：https://blog.csdn.net/dreamer2020/article/details/51284789

版权

本文介绍了Spark DataFrame的使用，包括读写、与RDD的转换及常见SQL查询操作，如select、where、count、order by、group by和join。适用于处理Parquet格式数据。

摘要由CSDN通过智能技术生成

最近用spark处理过一阵子日志，都是一些零零散散的需求，作为一个程序员，饱受查询之苦。在这个使用过程中，也渐渐对spark dataframe的使用摸索出了一些门道。之所以会频繁使用dataframe，源于我们的日志初步处理后保存为parquet格式，因而直接使用dataframe的场景比较多。

读写

val parquetFile = sqlContext.read.parquet("hdfs:///path/to/hdfs/file.parquet")
df.write.save("file:///path/to/local/file.parquet")

如上所示，直接使用内置函数读写文本，可以使用hdfs:或者file:标注是本地文件还是HDFS文件。

与RDD的转换

DataFrame描述的是表的结构，而RDD描述的是数据集，它们之间需要转换。

DataFrame转换为RDD

这个比较简单，直接调用df.rdd即可，得到一个org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]数据集。如下是一个数据示例：

RDD转换为DataFrame

这个要稍微复杂点。假设rdd是一个类型为org.apache.spark.rdd.RDD[(String, Long)]的数据集，转换办法如下：

object schema {   
    val name = StructField("name", StringType, true)       
	val number = StructField("number", LongType, true)       

    val row = StructType(Array(name, number))
}
val row = rdd.map(x=>Row(x._1, x._2))	//转换为Row
df = sqlContext.createDataFrame(row, schema.row)	//创建dataframe

在这里关键是创建了一个schema对象，来描述表的每个列的类型。