Spark以反射方式创建DataFrame

最新推荐文章于 2023-04-13 13:38:54 发布

h_sn999

最新推荐文章于 2023-04-13 13:38:54 发布

阅读量188

点赞数

分类专栏： spark 大数据文章标签： spark DataFrame

本文链接：https://blog.csdn.net/h_sn9999/article/details/104027988

版权

大数据同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

spark

4 篇文章 0 订阅

订阅专栏

package spark.demo.sql

import java.util
import java.util.{ArrayList, List}

import org.apache.spark.sql.types.{DataTypes, StructField, StructType}
import org.apache.spark.sql.{RowFactory, SparkSession}
import org.apache.spark.{ SparkConf, SparkContext }

object RDD2DataFrameReflection {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("Simple Application").setMaster("local[2]")
val sc = new SparkContext(conf)

val sparkSession = SparkSession.builder().appName("RDD2DataFrameReflection").enableHiveSupport.getOrCreate()
val lineRDD = sc.textFile("resources/people.txt")
val rowsRDD = lineRDD.map(line => {
val str = line.split(",")
RowFactory.create(str(0), Integer.valueOf((str(1).trim())))
})
println("===============================")
//rowsRDD.collect()

val fields = collection.mutable.ListBuffer[StructField]()
fields += DataTypes.createStructField("name", DataTypes.StringType, true)
fields += DataTypes.createStructField("age", DataTypes.IntegerType, true)

val schema = DataTypes.createStructType(fields.toArray)
schema.printTreeString()

val dataSet = sparkSession.createDataFrame(rowsRDD, schema)
dataSet.createTempView("person")

val persons = sparkSession.sql("select * from person")
val rows = persons.collect()

for (s <- rows) {
println(s)
}

// /tmp hadoop fs -chmod 777 /tmp save to hdfs
persons.write.parquet("hdfs://192.168.1.123:8020/tmp/p.parquet")

}

更多代码请参考：https://github.com/hsn999/spark-demo

h_sn999

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark以反射方式创建DataFrame

package spark.demo.sqlimport java.utilimport java.util.{ArrayList, List}import org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{RowFactory, SparkSessio...
复制链接

扫一扫