数据仓库
C.jio
保持心灵的理性与思考的纯性
展开
-
hive与clickhouse了解
hivehive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析clickhouseCl原创 2021-04-01 17:04:57 · 7139 阅读 · 0 评论 -
数仓入门,易于纯萌新理解,比我自己写的清晰(转载)
知乎大佬写的https://zhuanlan.zhihu.com/p/39611221原创 2021-03-22 11:01:18 · 141 阅读 · 0 评论 -
元数据
元数据是用来描述数据的数据(Data that describes other data)。下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,不原创 2021-03-17 09:53:25 · 141 阅读 · 0 评论 -
维度与指标
指标与维度最基本的作用是描述与衡量,维度与指标往往成对出现,搭配使用,往往通过组合筛选一系列指标来形成一个维度,也可以理解为不同的维度需要不同组合指标来实现。指标 用于衡量事物发展程度的单位或方法 指标需要经过加和、平均等汇总计算方式得到,并且是需要在一定的前提条件进行汇总计算, 如时间、地点、范围,也就是我们常说的统计口径与范围。指标可以分为绝对数指标和相对数指标,绝对数指标反映的是规模大小的指标,如人口数、GDP、收入、用户数,而相对数指标主要用来反映质量好坏的指标,如利润率、留存率、覆盖原创 2021-03-16 17:39:00 · 2055 阅读 · 0 评论