(3)数据源jdbc
注意:对于Oracle10来说,需要升级一下驱动,使用11g驱动
除了这一这个,启动spark-shell的时候也需要把oracle的驱动jar加载一下,具体示例如下
bin/spark-shell --master spark://bigdata111:7077 --jars /root/temp/ojdbc6.jar --driver-class-path /root/temp/ojdbc6.jar
//访问Oracle
val oracleDF = spark.read.format("jdbc").option("url","jdbc:oracle:thin:@192.168.157.135:1521:orcl").option("dbtable","scott.emp").option("user","scott").option("password","tiger").load
(4)把hive当做数据源
(*)集成Hive和Spark SQL
只需要将以下文件拷贝到$SPARK_HOME/conf的目录下,即可
$HIVE_HOME/conf/hive-site.xml
$HADOOP_CONF_DIR/core-site.xml
$HADOOP_CONF_DIR/hdfs-site.xml
(*)启动Spark Shell的时候,加载MySQL的驱动
bin/spark-shell --master spark://bigdata111:7077 --jars /root/temp/mysql-connector-java-5.1.43-bin.jar
上面的是我们在hive下操作的。
上面的是我们在spark-shell中操作的,是不是和在hive中操作的一样,这个就是用hive当spark的数据源,我们直接使用Spark Sql使用sql语句操作就可以了。