最近在学习中,需要用spark读取mysql数据,查阅了很多资料大多是java版本的,自己琢磨了半天,研究出python版本的,本人菜鸟,本博客只会记录学习过程,如有不妥请见谅。所用spark版本为1.4.1.
先上自己找到了一些相关资料,仅供参考~~~
有介绍Spark SQL与hive,json等数据的读写。而mysql等一些数据库可通过JDBC来读取。
from pyspark importSparkContextfrom pyspark.sql importSQLContext,Row
sqlContext=SQLContext(sc)
df=sqlContext.read.format('jdbc').options(url="jdbc:mysql://localhost/spider_db?user=spider_user&password=password",dbtable="allpapers").load()
或:
from pyspark importSparkContextfrom pyspark.sql importSQLContext,Row
sqlContext=SQLContext(sc)
df=sqlContext.read.jdbc(url="jdbc:mysql://localhost?user=spider_user&password=password",table="spider_db.allpapers")
url含义:
url=jdbc:mysql://MYSQL_HOST/MYSQL_DBNAME?user&#