我正在尝试使用
Python编写一个spark作业,它将打开与Impala的jdbc连接,并将Impala直接从Impala加载到Dataframe中.这个问题非常接近,但在scala中:
Calling JDBC to impala/hive from within a spark job and creating a table
我该怎么做呢?其他数据源有很多例子,例如MySQL,PostgreSQL等,但我还没有看到一个用于Impala Python Kerberos的数据源.一个例子会有很大的帮助.谢谢!
尝试使用来自网络的信息,但它没有用.
SPARK笔记本
#!/bin/bash
export PYSPARK_PYTHON=/home/anave/anaconda2/bin/python
export HADOOP_CONF_DIR=/etc/hive/conf
export PYSPARK_DRIVER_PYTHON=/home/anave/anaconda2/bin/ipython
export PYSPARK_DRIVER_PYTHON_OPTS='notebook --ip=* --no-browser'
# use Java8
export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$PATH
# JDBC Drivers for Impala
export CLASSPATH=/home/anave/impala_jdbc_2.5.30.1049/Cloudera_ImpalaJDBC41_2.5.30/*.jar:$CLASSPATH
export JDBC_PATH=/home/anave/im

本文档描述了如何在Python中使用Spark SQL通过JDBC连接到Impala,并将Impala表直接加载到DataFrame。作者遇到ClassNotFoundException的问题,解决方法是正确指定JDBC驱动的路径。示例代码和错误日志提供了问题排查的线索。
最低0.47元/天 解锁文章
3396

被折叠的 条评论
为什么被折叠?



