使用命令开启一个spark-shell:
./spark-shell --master local[2] --jars /home/iie4bu/software/mysql-connector-java-5.1.35.jar
因为我们要操作hive,因此需要添加mysql的driver类。
查看表
使用命令spark.sql("show tables").show
查看表数据
比较spark-shell和hive的性能
在hive中执行一条join操作:
hive> select * from sal s join people p on s.transactionid=p.id;
可以看到使用Hive操作时,花费20s。
在Spark-shell中执行相同个操作:
scala> spark.sql("select * from sal s join people p on s.transactionid=p.id").show
在使用spark时,几乎是瞬间出来。高下立判。
升级spark-shell
上面我们可以通过spark-shell来使用sql,当然我们可以使用另一个命令,更加方便的使用sql。那就是spark-sql.
使用命令:./spark-sql --master local[2] --jars /home/iie4bu/software/mysql-connector-java-5.1.35.jar --driver-class-path /home/iie4bu/software/mysql-connector-java-5.1.35.jar
当我们执行