REASON ————因为明天需要去汇报相关内容所以今天需要做个整理。
——-——-——-——-——-——-——-——-——-——-——-——-——-——-——-——-——-——-——
渠道数据集市隶属于大数据平台仓库系统下的一个集市。
先初步归整一下,现有的基于hadoop系统的数据仓库。
作为数据仓库需要实现以下基本功能:
1、数据存储与提取:基于hdfs的分布式文件存储系统。
主要要求:
适合较为集中的大数据文件(比如至少大于100m的归并文件)存入hdfs的块中。
小文件占hdfs的块数,所以需要设置对应合理的归并策略(你并没办法保证源系统给的都是足够大的文件)
需要较为充足的本地空间,hdfs空间大小与本地空间大小至少在50:1较为合适。
如果接入的源系统数量为100,本地至少需要保留对应存储5个系统2-3年全量数据的能力。
2、数据查询与分析:
查询主要使用impala和hive
hive主要优点建表稳定,后台运行平稳不易出错,impala相对于hive优点就是查询快
建议源系统来的数据直接etl过程转换成外部表对应文件建立映射
分析则需要利用spark或者包含spark的集成算子,相比于teradata(不知道拼错没)的工具而言,作初步的统计分析需要自己编辑相关内容或者借助其他工具
kudu作为目标实现实时更新对应数据表中间存储工具,目前实验环境正在安装。
问题有:在集群上布好对应安装包后,前台控制页面也在parcle中显示kudu存在,但服务没有对应添加。
后续rhadoop相关在实验环境安装,可以作为内嵌的分析工具。
对于外部工具 sas可以连接impala或hadoop的借口
但是比较麻烦的事不稳定,需要多测试相关内容。
同时sas单纯的作为日常提数工具,也太浪费功能了。
目前除了sas公司提供的相关借口 还未搜集到相关的解决方案。
这个希望能在集市供数上提前做好设计。
3、数据管理与维护
数据作为一种资产来管理与维护。
数据本身的价值是作为记录事实的价值,为了记录事实而持久化数据保存于仓库中。
在这个保存的过程中,需要明确保存的数据的质量和使用频率、产生价值。
最简单的质量包括:数据录入正确、数据分配合理。
大数据平台hadoop与之前定义的数据仓库最本质的区别是其对数据冗余的低成本可接受。
下面是一些大数据平台仓库建设的思路
数据使用频率:需要根据数据自身的属性来定义不同层次的数据维护与使用方案。
举例:在仓库中的贴源层的表尽量使用外部表,
被使用的方式仅限于录入正确性查询和后续仓库中间层、集市应用层的提供数据。
在数据中间层的数据表是基于贴源层数据和部分业务基础逻辑生产出来的统计信息。
数据中间层的建设需要包括固定的统计信息生成表建设(作为各项报表的基础);
一般的数据仓库在这一层(p层)会做数据仓库级别的建模,建立数据映射,将对应同类信息归档到一个系列(主题)
这个是基于仓库级必须建立的,但是不代表我们就只使用这一份数据,我认为这里是大数据平台仓库和原始数据仓库最重要的区别,它不会在乎空间大小,只要不是过量冗余,且计算出或归并出结果能够为后续集市层应用或其他应用创造方便就可以建立。
目前针对大量数据表有进行拉链表的处理,但是如果一旦需要恢复拉链表最初始的形态就会异常困难。
基于各源系统的表,在分析时越贴源越方便且有价值。(做微粒贷的时候深深感到痛苦)
在集市应用层的数据表时根据业务日常分析报表需求的内容,尽可能满足业务方便展现的内容。
数据分析与挖掘的价值就在于利用统计工具、各类外部方法发现现有数据的剩余价值。
包括数据自身和数据关联两大方面。