目录
其实对初学spark的同学来说,Sparksession,sparkcontext,sparksql,SparkConf看着都特别像,搞着搞着就混了,而且每次创建sparkSession对象时,还有多种写法,都差不多,但是对象又不一样,今天通过百度和理解,我把这几个对象梳理一下。
SparkSession是在Spark 2.0中引入的,SparkSession现在是Spark的新入口点,它替换了旧的SQLContext和HiveContext。注意,保留旧的SQLContext和HiveContext是为了向后兼容。因此,如果您正在使用Spark 2.0或更高版本,建议使用SparkSession。(先应个题)
一.先从SparkContext和SparkConf开始:
1.SparkContext 是什么?
任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。一旦设置完成SparkConf,就不可被使用者修改
初始化后,就可