spark sql + postgres 实现数据库计算,以下分为两种方式:
第一种针对比较简单的计算,将计算直接放着select语句中。
第二种适合比较复杂的计算,将数据从数据库中取出,放在变量里进行计算。
方式一:
from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext
from pyspark.sql.types import Row, StructField, StructType, StringType, IntegerType
url="jdbc:postgresql://localhost:5432/testdb?user=postgres&password=password"
#spark主入口
sc = SparkContext(appName="PythonSQL")
sqlContext = SQLContext(sc)
# 定义两个dataframe,分别从t1,t2