最近在使用HIVE的时候,在Spark上面其实还没有出错,但是一迁移到HIVE上运行,就会报错。首先报了一个cannot recognize的错误。后来经过解决发现又有其他错误,这些错误主要也是两者解释SQL的方式上面有所不同吧。
cannot recognize
这个错误主要由于每一个子查询最好是能够有别名,所以在select * from (select * from table_name) 后面添加一个子查询的别名,就可以解决问题。
encountered
这个错误源于在join过程中HIVE只能用等于作为join条件,所以遇到不等于或者大于小于之类的条件可以放在where中。这里放进去后可能会遇到数据重复,记得左右join的区别。
其他不同
窗口函数区别:在spark中窗口函数row_number()调用后一定要有order by,否则就会报错,例如: ROW_NUMBER() over(partition BY now_domain, now_ts ORDER BY last_ts DESC),在HIVE中可以缺省。
再遇到不同我会再次添加,以此做一个记录。
总结
两者虽然大体差不多,但是在一些细节的解释上有所不同,所以在写SQL的时候尽量全面,这样两者迁移也比较方便了。