离线数仓
文章平均质量分 91
离线数仓
DATA数据猿
路漫漫其修远兮,吾将上下而求索。
探索学习中的一枚数据猿,希望得到你的指点。
展开
-
《Hive系列》Hive管理记录
1.Linux下启动hive服务(beeline)2.Supervisor管理hive服务(metastore,hiveserver2),防止意外杀死Hive服务,导致任务中断3.set hive.fetch.task.conversion=more;设置Fetch 抓取原创 2021-06-16 15:12:25 · 3018 阅读 · 0 评论 -
《Hadoop系列》Hadoop实操记录
1.shell脚本配置伪分布式Hadoop2.数据直接上传到分区目录上,让分区表和数据产生关联的三种方式原创 2021-05-22 11:31:44 · 2091 阅读 · 13 评论 -
《数据仓库》一文读懂数据仓库建设
数据仓库建设一、数据仓库概念1.数仓架构 我们在谈到数据仓库,都会提到数仓架构,那么数仓架构到底是什么呢?首先,架构就是把一个整体工作按需切分成不同部分的内容,由不同角色来完成这些分工,并通过建立不同部分相互沟通的机制,使得这些部分能够有机的结合为一个整体,并完成这个整体所需要的所有活动。而数仓架构就可以理解为是构成数据仓库的组件以及之间的具有交互机制的关系。 如上图所示,数仓的数据源可能来自业务系统的数据,或者外部获取的数据,或者从线下文件导入的数据。通过抽取工作,将这些数据存储到数仓的原始原创 2022-04-15 22:30:48 · 17773 阅读 · 2 评论