- 博客(3)
- 收藏
- 关注
原创 PySpark写MySQL-数据类型被修改
现象:使用spark dataframe 写 MySQL,overwrite 模式,写进去的数据没问题,但是发现数据类型被修改成了 text,而且之前的字段注释段都没有了。经过网上各种搜索,基本确定了问题:1.当mode 设置为 overwrite 时,其操作流程是先删除原来MySQL的表,然后再新建一张。 这就解释了为什么注释都没有了。2.scala 中的 string 类型,对应到 MySQL 是 text 类型,这解释了为什么好多字段变成了 text。找到问题后,本能的想到,既然是要o
2020-07-17 15:15:33 620
原创 Hive与SparkSQL别名中的区别
先上代码:select vid,from_unixtime(gpsdate,'yyyy-MM-dd HH:mm:ss') as time from xxxxx where pdt = '2020-01-01' and vid = '010019410390' order by gpsdate limit 10;一行简单的代码,没啥毛病。但是,这行代码,在 SparkSQL 中没毛病,在 Hive 中却执行不了。ps:我司 Hive 是 1.2 版本,有点老旧了。。。Spark 用的是
2020-06-10 17:59:07 1095
原创 Hive运行报空指针异常--Hive与SparkSQL的小差异
在一次执行代码的过程中,SparkSQL 执行正常的代码,放到 Hive 中执行直接抛出空指针异常。查询了一些网上资料,大部分都是回答分区表没有分区,union 时候数据类型不一致。也不知道是直接抄袭还是同一个人的博客。但是检查了自己的代码,排除了分区以及union 过程中出现问题,但是仍然认为是数据类型造成的可能性极大。通过仔细的排查,发现有一行代码是这样的:nvl(table2.cityintime,array(0)) as cityintime这行代码中,cityintime 字段的类型
2020-06-05 18:28:35 1517
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人