Spark Sql 分布式SQL引擎&&Pandas PySpark使用

最新推荐文章于 2024-08-28 17:56:06 发布

OnTheRoad_Kang

最新推荐文章于 2024-08-28 17:56:06 发布

阅读量1.1w

点赞数 3

分类专栏： Big Data 技术点 Spark SQL 文章标签： Spark Sql 分布式SQL引擎 Pandas PySpark使用

本文链接：https://blog.csdn.net/qq_32297447/article/details/86756217

版权

Spark Sql 分布式SQL引擎

Spark SQL可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。在这个模式下，用户或应用程序可以直接与Spark SQL交互以运行SQL查询，而无需编写任何代码。

运行Thrift JDBC / ODBC服务器

对应HiveServer2 于Hive 1.2.1中的。可以使用Spark或Hive附带的beeline脚本测试JDBC服务器

启动JDBC / ODBC服务器

Spark目录中运行命令：./sbin/start-thriftserver.sh
这个脚本接受所有bin/spark-submit命令行选项，以及--hiveconf指定Hive属性的选项。你可以运行./sbin/start-thriftserver.sh --help帮助查看所有可用选项的完整列表。默认情况下，服务器侦听localhost：10000。你可以通过任一环境变量覆盖此行为
即：
export HIVE_SERVER2_THRIFT_PORT=<listening-port>
export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host>
./sbin/start-thriftserver.sh \
  --master <master-uri> \
  或系统属性：

./sbin/start-thriftserver.sh \
  --hiveconf hive.server2.thrift.port=<listening-port> \
  --hiveconf hive.server2.thrift.bind.host=<listening-host> \
  --master <master-uri>

你现在可以使用beeline来测试Thrift JDBC / ODBC服务器：
./bin/beeline

使用以下方式直接连接到JDBC / ODBC服务器：
beeline> !connect jdbc:hive2://localhost:10000

直线会询问你的用户名和密码。在非安全模式下，只需在您的计算机上输入用户名和空白密码即可。

你也可以使用Hive附带的beeline脚本。
Thrift JDBC服务器还支持通过HTTP传输发送thrift RPC消息。使用以下设置将HTTP模式作为系统属性启用或在hive-site.xml文件中启用conf/：
hive.server2.transport.mode - Set this to value: http
hive.server2.thrift.http.port - HTTP port number to listen on; default is 10001
hive.server2.http.endpoint - HTTP endpoint; default is cliservice

要进行测试，使用beeline以http模式连接到JDBC / ODBC服务器：
beeline> !connect jdbc:hive2: