hive
tianjun2012
这个作者很懒,什么都没留下…
展开
-
hive系列(2)---自定义函数UDF
一、自定义UDF在hql中可以满足大部分的需求,但是可能还有部分特定的业务需要自己自定义函数来实现,下面来模拟实现: 1、表的建立: t_p0: jdbc:hive2://mini01:10000> desc t_p;+-----------+------------+----------+--+| col_name | data_type | comment |+---------原创 2017-03-21 20:26:54 · 707 阅读 · 0 评论 -
hive系列(3)---Transform
通过(2)可以看到自定义的udf使用起来还是不是很方便的,Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能 适合实现Hive中没有的功能又不想写UDF的情况。一、文件的采集json文件的上传 1、建表hive> create table t_json(line string) > row format delimited;2、上传文件load data local原创 2017-03-21 20:27:57 · 701 阅读 · 0 评论 -
hive系列(4)--级联求和
一、业务需求已有表: 输出表:原创 2017-03-30 10:15:25 · 3669 阅读 · 0 评论 -
hive系列(1)
一、概述理解下hive整体流程: 二、Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。 3、Hive 中包含以下数据模型:DB、Table,External Table,Par原创 2017-03-21 11:28:52 · 888 阅读 · 0 评论 -
python连接hive--impyla
impyla安装连接hiveserv2的python的client端,可以提供impala、hive的使用功能。python2.7pip install thrift_sasl==0.2.1pip install thriftpip install sixpip install bit_arraypip install impylapython3.3+pip install t...原创 2018-11-14 13:47:27 · 1583 阅读 · 0 评论