HIVE
Gandalf_lee
互联网大厂从事数据挖掘,机器学习相关技术工作。
展开
-
关于Hive本地模式和远程模式
折腾了几天晚上,终于配置好了hive连接远程mysql,特此感谢@tzhang_skin1@chengat1314@sunev_yu@leonarding的热心帮忙下面对所遇到的问题和更正的理解做个总结:hive的内嵌模式安装过程参照老虎的ppt就行,基本不会出错,我重点说说对本地模式和远程模式的理解。(基本概念:metastore包括两部分,服务进程和数据的存储。)《hadoop原创 2013-06-10 09:57:24 · 7083 阅读 · 2 评论 -
【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详解
环境:hadoop2.2.0hive0.13.1Ubuntu 14.04 LTSjava version "1.7.0_60"Oracle10g到以下地址下载安装包http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz原创 2014-08-20 18:07:09 · 3367 阅读 · 1 评论 -
【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表
需求将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。设计涉及的三张表:全量表:保存了截止上一次同步时间的全量基础数据表增量表:增量临时表更新后的全量表:更新后的全量数据表步骤:通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表通过Hive将“全量原创 2014-08-21 19:14:08 · 4085 阅读 · 1 评论 -
【甘道夫】实现Hive数据同步更新的shell脚本
引言:上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程原创 2014-08-25 18:20:33 · 2626 阅读 · 0 评论 -
【甘道夫】Sqoop1.4.4原生增量导入特性探秘
原始思路要想实现增量导入,完全可以不使用Sqoop的原生增量特性,仅使用shell脚本生成一个以当前时间为基准的固定时间范围,然后拼接Sqoop命令语句即可。原生增量导入特性简介Sqoop提供了原生增量导入的特性,包含以下三个关键参数:ArgumentDescription--check-column (col原创 2014-08-27 18:33:44 · 2890 阅读 · 1 评论 -
【甘道夫】Hive0.13.1图形界面HWI尝鲜
引言HIVE的操作接口除了常用的CLI之外,还有图形界面HWI,今天尝试了下HWI,特此记录供以后参考。过程apache-hive-0.13.1-bin.tar.gz 的 lib 目录默认不包含 hive-hwi-0.13.1.war,我们需要到源码包中获取HWI。(1)将源码包 apache-hive-0.13.1-src.tar.gz 下载到本地原创 2014-09-26 18:15:14 · 2396 阅读 · 0 评论 -
【甘道夫】使用HIVE SQL实现推荐系统数据补全
需求在推荐系统场景中,如果基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果很可能达不到要求的数量。比如,希望针对每个item或user推荐20个item,但是通过计算只得到8个,剩下的12个就需要补全。欢迎转载,请注明出处:策略数据补全的具体策略是:补全时机:在挖掘计算结束后,挖掘结果导入HBase(最终web系原创 2014-09-29 19:05:20 · 3554 阅读 · 2 评论 -
【甘道夫】开发Hive自定义UDF,生成32位字母数字随机串
引言曾经认为Hive自带的函数应该可以cover住我的日常所需,心想那些需要使用自定义函数的场景是不是太奇葩,谁知命运弄人,自己还是碰上了。需求很简单,我需要模拟Oracle中的SYS_GUID()函数,生成一个32位的字母数字随机串。开发环境:Eclipse+Maven,引入Hive0.13.1的依赖。欢迎转载,请注明来源:原创 2014-11-13 17:54:25 · 3522 阅读 · 1 评论 -
【甘道夫】Hive扩展GIS函数
阶段一:编译函数包基于https://github.com/Esri/spatial-framework-for-hadoop 项目编译产出两个jar包:spatial-sdk-hive-2.1.1-SNAPSHOT.jarspatial-sdk-json-2.1.1-SNAPSHOT.jar在maven本地仓库中找出jar包 esri-geometry-api-2.2.0.jar注...原创 2019-06-14 20:53:27 · 962 阅读 · 0 评论