Spark Sql 分布式SQL引擎&&Pandas PySpark使用

Spark Sql 分布式SQL引擎

Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在这个模式下,用户或应用程序可以直接与Spark SQL交互以运行SQL查询,而无需编写任何代码。

运行Thrift JDBC / ODBC服务器

对应HiveServer2 于Hive 1.2.1中的。可以使用Spark或Hive附带的beeline脚本测试JDBC服务器

启动JDBC / ODBC服务器

Spark目录中运行命令:./sbin/start-thriftserver.sh
这个脚本接受所有bin/spark-submit命令行选项,以及--hiveconf指定Hive属性的选项。你可以运行./sbin/start-thriftserver.sh --help帮助查看所有可用选项的完整列表。默认情况下,服务器侦听localhost:10000。你可以通过任一环境变量覆盖此行为
即:
export HIVE_SERVER2_THRIFT_PORT=<listening-port>
export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host>
./sbin/start-thriftserver.sh \
  --master <master-uri> \
  或系统属性:

./sbin/start-thriftserver.sh \
  --hiveconf hive.server2.thrift.port=<listening-port> \
  --hiveconf hive.server2.thrift.bind.host=<listening-host> \
  --master <master-uri>

你现在可以使用beeline来测试Thrift JDBC / ODBC服务器:
./bin/beeline

使用以下方式直接连接到JDBC / ODBC服务器:
beeline> !connect jdbc:hive2://localhost:10000

直线会询问你的用户名和密码。在非安全模式下,只需在您的计算机上输入用户名和空白密码即可。

你也可以使用Hive附带的beeline脚本。
Thrift JDBC服务器还支持通过HTTP传输发送thrift RPC消息。使用以下设置将HTTP模式作为系统属性启用或在hive-site.xml文件中启用conf/:
hive.server2.transport.mode - Set this to value: http
hive.server2.thrift.http.port - HTTP port number to listen on; default is 10001
hive.server2.http.endpoint - HTTP endpoint; default is cliservice

要进行测试,使用beeline以http模式连接到JDBC / ODBC服务器:
beeline> !connect jdbc:hive2:
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值