Hive
文章平均质量分 81
Running_you
这个作者很懒,什么都没留下…
展开
-
HIVE中关于collect_set与explode函数妙用
hive的复合数据类型hive中的列支持使用三类复杂的集合数据类型,即:array,map及struct,这些类型的名称是保留字,具体用法可参见该篇博文,里面有关于三类基本集合数据类型的操作实例,注:map中可嵌套array类型。 例如,定义表:create table example ( device_id string, login_ip array<string>,原创 2015-08-31 19:30:40 · 29609 阅读 · 4 评论 -
MAHOUT文本向量相似度计算
相似度计算算法mahout源包中包含了common,hadoop,lucent及mahout核心算法相关的classes,其中,对于mahout中常用的推荐,聚类及分类中的相似度计算,mahout中提供了若干种向量相似度计算的方法,如下图所示 关于每种相似度的计算原理这里不作详细介绍说明,可以参考以下博客: http://www.cnblogs.com/dlts26/archive/2012/0原创 2015-09-24 20:13:07 · 2281 阅读 · 0 评论 -
Hive 函数高级编程
虽然Hive提供了很多函数,但是有些还是难以满足我们的需求,因此Hive提供了自定义函数开发,经常用到的主要有两种类型:UDF(User-Defined-Function)和UDAF(User- Defined Aggregation Funcation),前者主要用来实现一进一出的操作,而后者就是实现多进一出的操作。(1)UDF实现•UDF(User-Defined-Function),UDF函原创 2015-07-20 09:58:26 · 822 阅读 · 0 评论 -
HIVE中get_json_object与json_tuple使用
hive中提供了两种针对json数据格式解析的函数,即get_json_object(…)与json_tuple(…),理论不多说,直接上效果示意图:假设存在如下json数据对象,若使用hive环境可这么设置: set hivevar:msg={“message”:”2015/12/08 09:14:4”, “client”: “10.108.24.253”, “server”: “passpo原创 2015-12-08 10:25:30 · 58264 阅读 · 1 评论 -
sqoop的基本应用要点
sqoop可用于将关系型数据库与分布式存储系统进行数据的转换存储,例如可以将mysql中的数据与hive下的存储数据进行互转,但实质上仍然是读取hdfs下的存储文件。 有关sqoop的基本应用语法可以参考以下两篇sqoop中文手册: http://blog.csdn.net/myrainblues/article/details/43673129 http://www.zihou.me/htm原创 2015-12-08 10:06:45 · 1178 阅读 · 0 评论