SparkSQL 入门操作

最新推荐文章于 2024-04-30 22:37:43 发布

JamesFen

最新推荐文章于 2024-04-30 22:37:43 发布

阅读量2.5k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/jameshadoop/article/details/52442000

版权

1.前提
启动hadoop,spark
2.进入saprk-shell

bin/spark-shell --master spark://c1:7077 --executor-memory 2g

3.SQL操作

文本文件customers.txt中的内容如下：

100, John Smith, Austin, TX, 78727
200, Joe Johnson, Dallas, TX, 75201
300, Bob Jones, Houston, TX, 77028
400, Andy Davis, San Antonio, TX, 78227
500, James Williams, Austin, TX, 78727

直接写SQL的方式：

//
// 用编程的方式指定模式
//

// 用已有的Spark Context对象创建SQLContext对象
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

// 创建RDD对象,实际路径是hdfs://user/root/data/customers.txt
val rddCustomers = sc.textFile("data/customers.txt")

// 用字符串编码模式
val schemaString = "customer_id name city state zip_code"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JamesFen

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL 入门操作

1.前提启动hadoop,spark 2.进入saprk-shellbin/spark-shell --master spark://c1:7077 --executor-memory 2g3.SQL操作文本文件customers.txt中的内容如下：100, John Smith, Austin, TX, 78727200, Joe Johnson, Dallas, TX, 7520
复制链接

扫一扫