Python在HiveQL中的运用

最新推荐文章于 2024-04-14 15:20:31 发布

duqi

最新推荐文章于 2024-04-14 15:20:31 发布

阅读量930

点赞数

分类专栏： Ruby&Python

Ruby&Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

转载自：http://spinlock.blog.51cto.com/607469/976824

在写HiveQL的时候，往往发现内置函数不够用，Hive支持用户自定义函数UDF，使用Java进行开发。很多时候这显得过于繁重。因而Hive中提供了Transform机制（基于hadoop streaming），这种机制相当于提供了一个脚本程序的入口，因此我们可以很方便的使用shell、perl、python等语言进行开发。

Python是很简单易学开发效率也很高的一种脚本语言，虽然性能上不及Java和Cxx，但是在大多数情况下，特别是hadoop这样的分布式环境中，不会成为特别明显的性能瓶颈。

hive中transform的标准语法是下面这样的:

  
  select transform(x, y, z....) using 'xxx.py' as (xx, yy, zz....) from ....

其中，xyz为待处理的字段，xxx.py即为我们的python脚本。

在执行上面这个hiveql语句之前，需要将相应的脚本文件添加到环境中。

使用add file xxx.py即可，这里的文件名不能加引号。

python脚本可以采用下面这个框架:

   
   def main(): 
    try: 
        for line in sys.stdin: 
          n = line.strip() 
          #your code here... 
          print  n 
    except: 
        return None 
 
if __name__ == "__main__": 
    main()