1. join
xxxxx1 | 202009 | x1 | a1 | null | 5 | null |
xxxxx2 | 202009 | x2 | a2 | null | null | null |
xxxxx3 | 202009 | x3 | a3 | null | null | 5 |
三条数据分别三个Dataframe中,join之后,发现数据并没有合并成一条,是以三条的形式显示的。将空值进行填充,问题解决。当是null的时候,会被认为不是相同的值。
2. spark SQL的时区问题
当数据需要导入到mysql,又在spark sql 中进行了时间转时间戳的操作,需要注意spark中的时区可能和mysql中的不一样,导致导入之后的时间不对,解决方案将spark中的时间戳进行设置。
spark.conf.set("spark.sql.session.timeZone", "UTC")