![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
skwang_君永夜
这个作者很懒,什么都没留下…
展开
-
hive之编译源码支持UDF函数
文章目录1.下载源码2.编译支持UDF2.1 上传解压2.2 添加UDF函数类2.3注册函数2.4编译hive3.部署安装4.测试UDF友情提示: 若想减少服务器上maven编译出错的概率,可以选择将源码放在本地使用idea打开,修改源码并编译(最终失败,可能idea问题),但是这样确保我们修改的代码一定是正确的,以及本地仓库包含了几乎所有的jar。然后打包本地仓库上传服务以及修改的代码替换服务器上的解压后的类。1.下载源码我的hadoop版本环境使用的是hadoop-2.6.0-cdh5.7.0,故原创 2020-12-07 22:14:09 · 170 阅读 · 0 评论 -
hive之元数据详细分析
转载文章:你真的了解 Hive 的元数据吗?原创 2019-04-21 19:37:15 · 1084 阅读 · 0 评论 -
hive之使用sql进行增量结合历史数据分析
1.需求已知用户的月度点击次数信息,如下图,第一列用户名称,第二列月份第三列该月用户点击次数,要求扩充维度,每行增加两列信息,当月包括当月前最大点击次数和当月包括当月前总点击次数。2.hive sql的统计分析创建月度点击统计表CREATE TABLE use_click_month(use_name string,date_month string,count int)r...原创 2019-04-21 17:19:28 · 1262 阅读 · 0 评论 -
hive之UDF编程详解
前言:本文详解介绍UDF编程过程,以及hive中创建UDF函数的两种方式文章目录1.什么是udf1.1UDF分类2.UDF编程示列2.1pom依赖2.2UDF编程2.3打jar包3.创建UDF函数3.1创建临时的UDF函数3.2创建永久生效的UDF函数3.3编译hive支持自定义的UDF函数1.什么是udfUDF(User-Defined Functions)即是用户自定义的hive函数。h...原创 2019-04-20 18:52:15 · 7847 阅读 · 0 评论 -
hive执行计划解析
文章目录1.hive执行流程的重要性2.解析sql执行计划流程2.1 大数据两类sql框架2.2 解析sql执行计划流程详解3.sql执行计划映射MR流程3.1过滤类查询sql3.2分组聚合类查询sql3.3join类查询sql4. 执行计划优化1.hive执行流程的重要性1)当sql任务非常慢时,就需要分析它的执行流程2)常见的面试中,问对hive的理解?回答只是写sql,这个是很片面的...原创 2019-04-20 18:48:03 · 2913 阅读 · 0 评论 -
hive 之实战统计地区产品点击TOPN
目录1.数据准备2.安装sqoop3.使用sqoop将mysql中数据抽到hive4.求每个区域点击Top3的产品1.数据准备1.1产品信息表,存放在msyql关系型数据库 sql脚本百度网盘链接:链接:https://pan.baidu.com/s/1dT8Rt2L49VMoi6OY3qCE2g提取码:bhbx1.2城市信息表,存放在mysql关系...原创 2019-03-26 18:23:54 · 972 阅读 · 0 评论 -
hive之生产常用字段类型详解
1.基本字段类型:primitive_data数值类型: int、bigint、float、double、DECIMAL字符串:string布尔类型:true、false #生产用1/0代替时间类型:date、TIMESTAMP 等 #生产用字符串代替,如:190101010101012.数组类型:arrary_data存放相同类型的数据集合#创建一张包含arr...原创 2019-03-15 22:51:12 · 12207 阅读 · 2 评论 -
hive之beeline客户端操作hive
1、hiveserver2简介Hiveserver2简称hs2,它是一个允许多客户端并发连接的hive服务,客户端可通过jdbc、odbc方式去连接此服务操作hive。之前的hive启动的窗口,纯粹是一个客户端,exit退出后hive就停止了。2、启动hiveserver2cd ~/app/hive-1.1.0-cdh5.7.0/bin/ #进入hive安装目录./hives...原创 2019-03-15 22:43:38 · 6744 阅读 · 0 评论 -
hive之分区表详解
1.分区表简介当数据量很大时,一张表已经不适合装载全部数据(严重影响性能),同时很多场景的查询操作都是对部分数据的查询,这时我们需要对数据按一定规则进行分表。RDBMS: 对数据进行分表,如一年的上网记录即为一张表NOSQL:hive是设置分区的字段,对数据进行分区扩展1:大数据的瓶颈之一是IO,IO分为disk、network两类,hive通过设置分区能大大降低disk的消耗,生...原创 2019-03-15 22:32:58 · 1485 阅读 · 0 评论 -
hive之生产环境常用sql语法
目录1 hive配置参数查询以及修改2 生产常用基本字段类型3 DDL语法4 DML语法5 hive自带函数详解1 hive配置参数查询以及修改1.1hive日志文件存储目录修改默认hive运行日志配置在HIVE_HOME/conf/hive-log4j.properties.template,配置参数为hive.log.dir=${java.io.tmpdi...原创 2019-03-11 14:41:41 · 658 阅读 · 0 评论 -
Hive之快速入门以及安装部署
1.生产中常使用的SQL on hadoop 框架主流sql on hadoop有Hive、Spark SQL、Phonix扩展1:hadoop 由hdfs,yarn,mr组成,守护进程nn与rm容易出现单点故障,而生产中要求是任何一个流程都要考虑到单点故障,任何一个组件环节都必须是HA(高可用),生产中nn,rm都至少两个,实时热备。2.Hive简介Hive是Apache基金会的...原创 2019-03-04 23:11:44 · 364 阅读 · 0 评论