1.前提
启动hadoop,spark
2.进入saprk-shell
bin/spark-shell --master spark://c1:7077 --executor-memory 2g
3.SQL操作
文本文件customers.txt中的内容如下:
100, John Smith, Austin, TX, 78727
200, Joe Johnson, Dallas, TX, 75201
300, Bob Jones, Houston, TX, 77028
400, Andy Davis, San Antonio, TX, 78227
500, James Williams, Austin, TX, 78727
直接写SQL的方式:
//
// 用编程的方式指定模式
//
// 用已有的Spark Context对象创建SQLContext对象
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// 创建RDD对象,实际路径是hdfs://user/root/data/customers.txt
val rddCustomers = sc.textFile("data/customers.txt")
// 用字符串编码模式
val schemaString = "customer_id name city state zip_code"