1 spark-sql的broadcast join需要先判断小表的size是否小于spark.sql.autoBroadcastJoinThreshold设定的值(byte).
2 在spark中size的估算表示为statistics类,仅对hive relation 有效,因为其最初是从hive元数据库中读取所需的统计值的.因此对于jdbc relation等来说,无法触发broadcast join
1 spark-sql的broadcast join需要先判断小表的size是否小于spark.sql.autoBroadcastJoinThreshold设定的值(byte).
2 在spark中size的估算表示为statistics类,仅对hive relation 有效,因为其最初是从hive元数据库中读取所需的统计值的.因此对于jdbc relation等来说,无法触发broadcast join