hive
文章平均质量分 71
Hive数据仓库
硅谷工具人
一颗么得灵魂的工具人,学废了。
展开
-
hive真实表空间大小统计
如果是采用hdfs上传加载的表、或者是flume直接写hdfs的表空间通常看hive的属性是不准确的。原创 2023-03-05 16:28:20 · 2447 阅读 · 0 评论 -
Flink使用TableAPi方式读取和写入Hive
(1)验证了Hive中org.openx.data.jsonserde.JsonSerDe格式的表是可以直接读取数据出来的。以下是一个简单的参考实例,用来验证通过FlinkSQL来跑批方式清洗Hive数据可行的。(4)将清洗完的流数据转为表,再通过SQL方式插入到hive中。(2)通过TableAPI方式读取Hive表。(3)表转流操作,以及在流中做数据清洗。原创 2022-12-21 18:13:05 · 1065 阅读 · 0 评论 -
Hive UDF IP解析(二):使用geoip2数据库自定义UDF
开发中经常会碰到将IP转为地域的问题,所以以下记录Hive中自定义UDF来解析IP。使用到的地域库位maxmind公司的geoIP2数据库,分为免费版GeoLite2-City.mmdb和收费版GeoIP2-City.mmdb,不管哪个版本,开发的接口都是相同。开发环境:hive-2.3.0hadoop 2.7.3jdk 1.81. 新建maven项目regionParse,加入以下......原创 2018-03-26 14:14:00 · 727 阅读 · 0 评论 -
hive中创建hive-json格式的表及查询
在hive中对于json的数据格式,可以使用get_json_object或json_tuple先解析然后查询。也可以直接在hive中创建json格式的表结构,这样就可以直接查询,实战如下(hive-2.3.0版本):1. 准备数据源将以下内容保存为test.txt{"student":{"name":"king","age":11,"sex":"M"},"class":{"book"......原创 2018-01-19 19:30:00 · 1362 阅读 · 0 评论 -
hive表增量抽取到oracle数据库的通用程序(一)
hive表增量抽取到oracle数据库的通用程序(二)sqoop在export的时候只能通过--export-dir参数来指定hdfs的路径。而目前的需求是需要将hive中某个表中的多个分区记录一次性导出到oracle数据库中,由于不支持通配符,又不想设置多个workflow。为了替代蹩脚的sqoop,准备使用java来开发通用包来替代这个导出功能。通过给java程序提供具体的参数,完成数......原创 2018-05-18 16:27:00 · 502 阅读 · 0 评论 -
hive中function函数查询
1. desc function [函数名]desc function xpath;查询用法:2. desc function extended [函数名]desc function extended xpath;查询使用举例:3. 自定义函数添加说明:使用@Description注解name: 指定函数名value: 函数说明extended:函数的例子......原创 2019-08-05 20:29:00 · 562 阅读 · 0 评论 -
hive自定义分段函数(分箱)
分段函数常用于分箱中,统计分组在指定的区间中的占比。比如有如下例子:统计某个班级中考试分数在各个阶段的占比。准备的数据如下:使用如下文件在hive中建表。class1,1,100class1,2,88class1,3,90class1,4,23class1,5,30class1,6,55class1,7,66class1,8,99class1,9,56class1,......原创 2021-09-22 21:34:00 · 747 阅读 · 0 评论 -
Hive小文件处理
小文件是如何产生的:动态分区插入数据的时候,会产生大量的小文件,从而导致map数量的暴增数据源本身就包含有大量的小文件reduce个数越多,生成的小文件也越多小文件的危害:从HIVE角度来看的话呢,小文件越多,map的个数也会越多,每一个map都会开启一个JVM虚拟机,每个虚拟机都要创建任务,执行任务,这些流程都会造成大量的资源浪费,严重影响性能在HDFS中,每个小文件约占......原创 2019-06-21 09:51:00 · 172 阅读 · 0 评论 -
hive常用操作
1. 文件导入到hdfs从本地/tmp/path下拷贝文件上传到hive表test中的CHINA分区中。LOAD DATA LOCAL INPATH '/tmp/path/' OVERWRITE INTO TABLE test PARTITION (country='CHINA')2. hive -f 带参数⭐️注意⭐️:使用hive -e 查询时,查询结果是写入不了hive表中的......原创 2018-04-02 15:46:00 · 73 阅读 · 0 评论 -
hive常用参数配置设置
hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行)truehive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。134217728Lhiv......原创 2018-11-16 00:27:00 · 2357 阅读 · 0 评论 -
hive通过nginx实现HA高可用
1. nginx的安装1.1 下载上传http://nginx.org/en/download.html1.2 linux上安装c++编译环境yum install -y zlibyum install gcc-c++ openssl openssl-devel zlib-devel pcre pcre-devel zlib zlib-devel1.3 解压并编译注意:这里一定要带上-......原创 2022-05-11 14:32:00 · 334 阅读 · 0 评论