muzichichi-CSDN博客

原创 PySpark写MySQL-数据类型被修改

现象：使用spark dataframe 写 MySQL，overwrite 模式，写进去的数据没问题，但是发现数据类型被修改成了 text，而且之前的字段注释段都没有了。经过网上各种搜索，基本确定了问题：1.当mode 设置为 overwrite 时，其操作流程是先删除原来MySQL的表，然后再新建一张。这就解释了为什么注释都没有了。2.scala 中的 string 类型，对应到 MySQL 是 text 类型，这解释了为什么好多字段变成了 text。找到问题后，本能的想到，既然是要o

2020-07-17 15:15:33 620

原创 Hive与SparkSQL别名中的区别

先上代码：select vid,from_unixtime(gpsdate,'yyyy-MM-dd HH:mm:ss') as time from xxxxx where pdt = '2020-01-01' and vid = '010019410390' order by gpsdate limit 10;一行简单的代码，没啥毛病。但是，这行代码，在 SparkSQL 中没毛病，在 Hive 中却执行不了。ps：我司 Hive 是 1.2 版本，有点老旧了。。。Spark 用的是

2020-06-10 17:59:07 1095

原创 Hive运行报空指针异常--Hive与SparkSQL的小差异

在一次执行代码的过程中，SparkSQL 执行正常的代码，放到 Hive 中执行直接抛出空指针异常。查询了一些网上资料，大部分都是回答分区表没有分区，union 时候数据类型不一致。也不知道是直接抄袭还是同一个人的博客。但是检查了自己的代码，排除了分区以及union 过程中出现问题，但是仍然认为是数据类型造成的可能性极大。通过仔细的排查，发现有一行代码是这样的：nvl(table2.cityintime,array(0)) as cityintime这行代码中，cityintime 字段的类型

2020-06-05 18:28:35 1517

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人