hive中剔除非utf8编码的数据

最新推荐文章于 2024-06-18 16:02:07 发布

cajeep2001

最新推荐文章于 2024-06-18 16:02:07 发布

阅读量4.4k

点赞数

分类专栏： hive优化文章标签： python import email 脚本扩展

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cajeep2001/article/details/7854107

版权

在Hive数据导出过程中，由于数据编码不一致，导致出现编码转换错误。本文通过Python脚本来过滤掉混杂的GBK编码数据，保持UTF8编码。脚本利用UnicodeDecodeError异常来识别非UTF8字符，并在Hive中使用TRANSFORM功能结合脚本进行处理。

摘要由CSDN通过智能技术生成

最近在做hive数据导出的时候，发现有很多数据行存在不一致的编码的类型，导致编码转换的时候，遇到错误，比如一行数据中又存在utf8编码的数据，又存在gbk编码的数据，而对于中文来说，gbk和utf8的编码是不一样的。所以一旦为gbk的数据用utf8进行解码的时候，会报错。因此，需要将这部分混在utf8编码数据中的gbk编码数据剔除掉。

利用python脚本，然后进行transform，来完成剔除的步骤。

代码如下，利用原理，就是进行decode解码的时候，如果解码错误，则表示非utf8字符类型。

#!/usr/bin/python
import sys
import datetime
UTF8='utf8'
OTHER='other'
for line in sys.stdin:
try:
line = line.strip()
arr = line.split('\t')
item=""
for item in arr:
item.decode(UTF8)
print UTF8+"\t"+arr[0]
except UnicodeDecodeError:
print OTHER+"\t"+arr[0]
except:
print OTHER+"\t"+arr[0]

在hive中使用如下：

SELECT

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cajeep2001 CSDN认证博客专家 CSDN认证企业博客

码龄17年

21: 原创

111万+: 周排名

175万+: 总排名

7万+: 访问

: 等级

1018: 积分

7: 粉丝

4: 获赞

2: 评论

7: 收藏

私信

关注

热门文章

分类专栏

brief 2篇
读后感 1篇
etl心得
随感 2篇
hivey
hive优化 5篇
pytho
python 8篇
greenplum 1篇
数据仓库 1篇
other 2篇

最新评论

hive优化【增加执行的map数,reduce数】
廖某: hive中调节map的个数应该要通过修改最小split大小来实现。
python中的json使用误区
xxjjyy2008: 你好，问一下 str(b[‘isSuccess’]),则显示为’y’，没有了u，所以自己需要对load完后的对象中所有item，都要用str()的方式重新赋值一遍。建议用方法2中的object_hook来实现，能处理字典的key吗？怎么处理呢？谢谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。