安装好hadoop、hive、yarn
shark、spark安装包
spark-assembly_0.9.1-hadoop2.3.0-cdh5.0.0-och3.1.0.jar
shark-0.9.1-och3.1.0.tar
安装步骤
1)下载并安装scala: wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
2)解包shark-0.9.1-och3.1.0.tar
3)修改conf/shark-env.sh
4)检查yarn-site.xml,需要有以下配置项:
<property>
<name>yarn.application.classpath</name>
<value>
$HADOOP_CONF_DIR,
$HADOOP_COMMON_HOME/share/hadoop/common/*,
$HADOOP_COMMON_HOME/share/hadoop/common/lib/*,
$HADOOP_HDFS_HOME/share/hadoop/hdfs/*,
$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,
$HADOOP_YARN_HOME/share/hadoop/yarn/*,
$HADOOP_YARN_HOME/share/hadoop/yarn/lib/*
</value>
</property>
启用snappy压缩,需要在shark-env.sh中配置SPARK_JAVA_OPTS -Djava.library.path指定native库路径
启动
1) Shark CLI
bin/shark 交互模式
bin/shark -e "select * from test" 执行sql然后退出
2) shark server
./shark --service sharkserver2
端口可以在shark-env.sh 中配置export HIVE_SERVER2_THRIFT_PORT=10002
可以用jdbc连接shark server
启动成功可以在yarn管理页面查看到application type是SPARK的application。