![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
那些年踩过的坑
Coder杨公子
这个作者很懒,什么都没留下…
展开
-
empty.min(empty.max)报错
最近写代码的时候碰到一个以前没有见过的错误(如下图),找了很久也不知道是什么原因。报错的代码如下:在网上查了很多博客,基本上都是说使用Iterator(迭代器)的时候出现了多次遍历的问题。因为Iterator的max和min方法是TraversableOnce(可遍历一次,遍历过一次之后迭代器就变为空的了)类型的,所以当第二次调用同样的方法,或第一次调用max方法第二次调用mi...原创 2018-07-31 10:54:51 · 1446 阅读 · 0 评论 -
!= null 还是 is not null
最近在做数据处理的时候由于洗数据的同事没有把应该清洗掉的空值洗掉,所以让我在程序处理的过程中遇到了一些麻烦。发现这些空值后,我就想在SQL中将这些空值的数据洗掉。于是用到了!= null ,可是当我再次执行程序的时候,发现运算结果竟然一条结果都没有,我百思不得其解,后来经过分析,只有!=null 会出现问题。于是想到了是不是应该使用is not null ,结果一试就对了。但是还是不知道为什么...原创 2018-09-29 17:21:53 · 996 阅读 · 0 评论 -
Spark SQL 读取hive分区表出现分区字段为null的情况
今天在使用Spark SQL 读取hive分区表数据的时候,出现了下面的错误:由于这个表是数仓维护提供给我使用的,我并不是很清楚表中数据的情况,于是我取查了一下这个表,发现分区字段pk_year,pk_month,pk_day这几个字段确实都存在为默认的情况:在hive里面表可以创建成分区表,但是当分区字段的值是''"或者 null时 hive会自动将分区命名为默认分区名称。...原创 2019-01-23 16:45:02 · 4204 阅读 · 1 评论 -
Spark 2.2.0 在创建过大的DataFrame时候出现的错误
今天在使用Spark计算标签数据并且将结果存入hive表的时候出现了一些问题。我是用client模式提交的spark应用,在程序运行到一般的时候,突然出现代码生成器打印出很多奇怪代码的情况。我当时很奇怪,就立即kill掉了这个应用,并且去看了一下yarn上面对应的日志,发现了报了这样的错:然后去网上疯狂百度,发现这是spark2.2.0版本的一个bug,当创建的DataFram...原创 2019-01-23 17:30:27 · 1234 阅读 · 0 评论