实验5 Spark SQL 编程初级实践

最新推荐文章于 2024-04-25 15:01:32 发布

weixin_30299539

最新推荐文章于 2024-04-25 15:01:32 发布

阅读量1.3k

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/z12568/p/10604400.html

版权

源文件内容如下（包含 id,name,age），将数据复制保存到 ubuntu 系统/usr/local/spark 下，命名为 employee.txt，实现从 RDD 转换得到 DataFrame，并按 id:1,name:Ella,age:36 的格式打印出 DataFrame 的所有数据。请写出程序代码。（任选一种方法即可）

1,Ella,36
2,Bob,29
3,Jack,29

代码如下：

import org.apache.spark.sql.types._
import org.apache.spark.sql.Encoder
import org.apache.spark.sql.Row
import org.apache.spark.sql.SparkSession
object RDDtoDF {
def main(args: Array[String]) {
   val spark = SparkSession.builder().appName("RddToDFrame").master("local").getOrCreate()
   import spark.implicits._  
　　val  employeeRDD  =spark.sparkContext.textFile("file:///usr/local/spark/employee.txt")
　　val schemaString = "id name age"
　　val fields = schemaString.split(" ").map(fieldName => StructField(fieldName,
　　StringType, nullable = true))
　　val schema = StructType(fields)
　　val  rowRDD  =  employeeRDD.map(_.split(",")).map(attributes  =>
　　Row(attributes(0).trim, attributes(1), attributes(2).trim))
　　val employeeDF = spark.createDataFrame(rowRDD, schema)
　　employeeDF.createOrReplaceTempView("employee")
　　val results = spark.sql("SELECT id,name,age FROM employee")
　　results.map(t => "id:"+t(0)+","+"name:"+t(1)+","+"age:"+t(2)).show()
　　}
}

运行截图：

转载于:https://www.cnblogs.com/z12568/p/10604400.html

weixin_30299539

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
实验5 Spark SQL 编程初级实践

源文件内容如下（包含 id,name,age），将数据复制保存到 ubuntu 系统/usr/local/spark 下，命名为 employee.txt，实现从 RDD 转换得到 DataFrame，并按 id:1,name:Ella,age:36 的格式打印出 DataFrame 的所有数据。请写出程序代码。（任选一种方法即可）1,Ella,362,Bob,293,Jack...
复制链接

扫一扫