hive
文章平均质量分 77
hive的各种问题
呵呵小短腿
这个作者很懒,什么都没留下…
展开
-
解决spark saveAsTable生成的parquet格式的表的问题
解决spark saveAsTable生成的parquet格式的表的问题问题一:直接在命令行创建的parquet格式的表通过spark saveAsTable 无法写入原创 2020-06-18 16:06:49 · 3133 阅读 · 0 评论 -
hive自定义行分隔符
首先交代一下背景:通过spring消费RMQ的数据写到hdfs,从一开始就预料到直接写textfile会有错行乱行的问题,所以一开始的方案是写parquet,经过验证后发现写parquet会有很多小文件(parquet文件落地后不能修改,不能追加),会对name node造成额外的压力,所以最终妥协写textfile 加自定义行分割符查看hive默认的textfile 的inputformat默认的TextInputFormat在hadoop-mapreduce-client-core包里面原创 2020-05-28 22:42:09 · 2144 阅读 · 1 评论 -
hive的Transform定义函数
hive中的自定义函数支持Transform和UDF。UDF是将java代码打包上传,如果你不想写java代码也可以,那就用到了Transform,写一个脚本,通过脚本来处理。本文是写的Python脚本来处理json数据,作用是和上篇文章的UDTF一样(上篇文章)。一:编写Python脚本json-udtf.py#!/bin/pythonimport sysimport json原创 2017-06-21 15:12:11 · 8424 阅读 · 2 评论 -
自定义UDTF和hive自定义函数的永久注册
package myUDF;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.Iterator;import java.util.List;经过自定义函数处理后的数据:只处理name字段四:对于本需求有了详细的了解之后原创 2017-06-16 17:56:27 · 6327 阅读 · 0 评论