1、SQLContext/HiveContext/SparkSession的使用
Spark1.x中SparkSql的入口点是:HiveContext
#sc is an existing SparkContext
Val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
Spark 2.x中SparkSql的入口点是:SparkSession
val spark = SparkSession.builder().appName(“Spark SQL basic example”).config(“spark.some.config.option”,”some-value’).getOrCreate()
2、spark-shell/spark-sql的使用
1)、添加hive-site.xml配置文件,添加到spark /conf文件夹下面
2)、--jars 传递mysql驱动包
3、查看执行计划
explain extended select a.key*(2+3),b.value from t a join t b on a.key = b.key and a.key >3
4、thrift server/beeline的使用
1)启动thrift server
2)启动beeline连接到thrfitserver
beeline -u jdbc:hive2://localhost:10000 -n hadoop
5、thrift server和普通的spark-shell/spark-sql有什么区别?
1)spark-shell、spark-sql都是一个spark application
2)thrift server,不管你启动多少个客户端(beeline/code),永远都是一个spark application 解决一个数据共享的问题,多个客户端可以共享数据
6、jdbc方式编程访问
1)、maven添加依赖:org.spark-project.hive#hive-jdbc
2)、开发代码访问thrift server
注意事项:在使用jdbc开发时,一定要先启动thriftserver