spark2.1和spark1.5在一些语法上有区别,使用习惯了2.1版本,现在突然使用1.5版本,有些不习惯。不得不吐槽一下1.5,执行是真慢;
spark1.5和spark2.1使用中遇到的区别
1.spark1.5 对语法规则要求很严格 ; table 这个字段不要省略,如果有子查询,那么语法必须完整,insert into table xx 必须完整。并且 rlike 和exists 不能在同一级中出现 ,例如select A from tableB where name rlike ' ' and age exists( select ..) ,但是如果有存在子查询中是可以执行;
2.sql插入数据区别
还有一个在spark2.1上手动插入一条数据:insert into xxx values(x,x,x);可以执行
但是在spark1.5上不行,只能用insert into table xx select x,x,x 这种方式
3.不能在插入分区时使用 exists 字段,比如insert into table A partition (month = '') select x,x from b where not exists( select 1 from A);
4.执行效率的查表不是一般大,spark2.1一分钟执行完的,spark1.5执行20分钟左右。
5. 1.5版本不支持left anti join 2.1版本支持
对于版本不同导致的报错,仔细看一下报错的信息,很容易发现问题所在并解决;
如原来在spark2.1上执行没有任何问题,现在在spark1.5上报错如下,第一次看到信息很郁闷,语法没问题啊,1.5为什么会这样???
因为在spark2.1上执行是正确的,所以自然认为是版本不一致导致的,排查方法也简单,即一条一条的删除(因为我本地没有数据,不用担心笛卡尔积)。后来仔细看日志,直到注意到下面的报错信息,刚开始忽略了,走了很多弯路;只要把insert into 后面加上table就可以了