基于本地文件启动
$SPARK_HOME/bin/spark-sql --master spark://sparkmaster:7077 --driver-cores 1 --driver-java-options "-Dspark.driver.port=4050"
基于hdfs文件启动
$SPARK_HOME/bin/spark-sql --master spark://sparkmaster:7077 --driver-cores 1 --driver-java-options "-Dspark.driver.port=4050" --hiveconf "hive.metastore.warehouse.dir=hdfs://sparkmaster:9000/data_dps"
_在spark 2.0.1 中,--hiveconf "hive.metastore.warehouse" 参数已经不再生效,应该使用
--conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/data_dps 命令进行代替 _
创建表,并设置文本分割方式
spark-sql> create table test (id int , name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE ;
加载本地文件
spark-sql> LOAD DATA LOCAL INPATH '/opt/spark/users.txt' INTO TABLE test;
加载hdfs文件
spark-sql> LOAD DATA INPATH 'hdfs://sparkmaster:9000/data_dps/users.txt' INTO TABLE test;
然后就可以通过sql来操作这些数据了。