![](https://img-blog.csdnimg.cn/20200306220751558.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
hive
文章平均质量分 78
hive实践与优化
无尴尬不青春
关注大数据前沿技术
展开
-
《维度模型系列》-1初识维度模型
目录前言什么是维度建模维度建模的好处未来内容更多技术文章请关注公众号:前言数据模型就是数据的组织和存储方法,它强调从业务,数据存取,和使用角度合理的存储数据。模型设计是数据仓库的必备技能和主要工作之一。模型设计的好坏直接影响数仓整体的性能,存储成本,使用效率,数据质量等等。数仓典型的模型方法论有以下几种:ER模型,维度模型,Data Vault模型,Anch...原创 2020-03-08 10:24:51 · 1406 阅读 · 0 评论 -
元数据管理-hive表Statistics信息获取
1概述表的基础信息维护展示是数据仓库元数据管理的主要内容之一,对于hive来说如表名,表注释,内外表类型,列的字段名、字段类型、字段备注、是否是分区字段,存储文件类型,压缩格式等信息,这些都是在建表时就可以获取的。还有一些和表中数据存储相关的信息,比如行数,文件数,压缩前后存储大小等信息是随着ETL数据变化而变化的,我们希望在ETL结束后能够获取这些最新信息到我们元数据管理系统中。庆幸的是hi...原创 2020-03-06 23:03:55 · 4741 阅读 · 0 评论 -
基于hive的bulkload实践
1背景工作中遇到需要将hive中数据同步到hbase的需求,之前是通过建设hive映射hbase表的方式,直接通过insert into table select * from table的方式写入的,刚开始的时候同步的表和业务数据量都比较小,数据同步速度可以接受。随着业务发展同步的表和数据量逐渐增多,同步一张表的时间越来越长。这种写入方式底层其实是调用hbase的put接口写入,大量数据写入...原创 2020-03-06 22:53:30 · 894 阅读 · 0 评论 -
hive集成Elasticserch
hive映射elasticserch的实践与优化,问题总结原创 2020-03-06 22:42:18 · 480 阅读 · 0 评论 -
mongo to hive的实践与优化
一、前言数据抽取是数据仓库ETL开发的重要环节,对于异构数据源的同步有多种工具,也会遇到各种问题。本文主要总结作者工作中同步mongo数据到hive的方式和经验。二、mongo to hive方式选择mongo同步数据到hive有多种方式,下面介绍几种常用的方式1、通过datax官网介绍:datax的MongoDBReader 插件利用 MongoDB 的java客户端M...原创 2020-03-06 22:24:17 · 1978 阅读 · 1 评论