文章目录
Spark Sql DataFrame DataSet:
1.减少小文件
使用coalesce()算子,缩小分区
插入hive表 write.mode 选择插入模式,inserinto 兼容hive 根据字段顺序去匹配hive表。saveastable 不兼容hive 根据字段名字进行匹配
2.windows下local模式访问集群资源
core-site.xml, hdfs-site.xml ,hive-site.xml,yarn-site.xml放到resource源码包下
HA支持:
val sparkSession = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()
val ssc = sparkSession.sparkContext
ssc.hadoopConfiguration.set("fs.defaultFS", "hdfs://mycluster")
ssc.hadoopConfiguration.set("dfs.nameservice