使用Python实现Hive的UDF示例

最新推荐文章于 2024-03-18 14:14:07 发布

BabyFish13

最新推荐文章于 2024-03-18 14:14:07 发布

阅读量5.3k

点赞数

分类专栏： Python # Hive BigData 文章标签： python hive hql UDF

本文链接：https://blog.csdn.net/babyfish13/article/details/53558910

版权

Python 同时被 3 个专栏收录

109 篇文章 3 订阅

订阅专栏

Hive

80 篇文章 5 订阅

订阅专栏

BigData

52 篇文章 2 订阅

订阅专栏

主要分为两个部分，一个部分为Python脚本实现想要实现的功能，另外一个部分为HQL部分，调用Python脚本对数据进行处理。
HQL调用Python实现的UDF其实有一个重定向的过程，把数据表中之列的列重定向Python的标准输入中,按行操作，首先将每行按照指定的分割符分开，一般为’\t’，然后剩下的就是对其进行操作，print需要的列,以’\t’分割。
1、Python实现的UDF代码
/Users/nisj/PycharmProjects/EsDataProc/frist_udf.py

import sys
i = 0
for line in sys.stdin:
    line = line.strip()
    i += 1
    line = line + " hello udf!"
    print i,line

2、HQL调用UDF
--首先需要添加Python文件
add file pythonfile_location;
--然后通过transform(指定的列) ，指定的列是需要处理的列
select transform(指定的列)
using "python filename"
as (newname)
--newname指输出的列的别名

select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 1000;
select TRANSFORM(uid,appkey,imei) USING 'python xx_udf.py' as (uid,appkey,imei) from xx_uid_new_fristday_1208 limit 1000;
drop table if exists xx_udf_1210;create table xx_udf_1210 as select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 10;

3、几个说明
add file后面的路径是Hive客户端所在的本地文件路径，而非Hdfs上的路径。
UDF函数调试的时候，可以使用【cat xx.txt|python udf.py】的方式，不用经过Hive客户端。
Hive传入python脚本中的数据，是通过'\t'来分隔的，所以Python脚本用通过.split('\t')来区分开；有时候，我们结合INSERT OVERWRITE使用上述TRANSFORM，而目标表，其分割副可能不是\t。但是请牢记： TRANSFORM的分割符号，传入、传出脚本的，永远是\t。

BabyFish13

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
使用Python实现Hive的UDF示例

主要分为两个部分，一个部分为Python脚本实现想要实现的功能，另外一个部分为HQL部分，调用Python脚本对数据进行处理。HQL调用Python实现的UDF其实有一个重定向的过程，把数据表中之列的列重定向Python的标准输入中,按行操作，首先将每行按照指定的分割符分开，一般为’\t’，然后剩下的就是对其进行操作，print需要的列,以’\t’分割。1、Python实现的UDF代码
复制链接

扫一扫