作为一名数据分析师,每日处理大量数据,这些大量数据来自数据仓库,数据仓库里面太多太多表,什么用户信息表,订单表,产品信息表,订单明细表,评论表等等,五花八门,光是弄清楚每个表的含义和对应的字段含义,就很头大。
那么有没有什么好的方法弄清楚各个表的含义?如果数据仓库表命名规范,可以看出一些内藏玄机后面会讲到,但是我日常的处理方式就是把用到的表记录下来,记录的表多了,再归类一下。
由于日常工作涉及的很多表毕竟都是来自数仓工程师或者有的时候自己处理一下,我认为懂得数仓的概念还是对自己有意义的。这里介绍一下数据仓库的概念
数据仓库(Data Warehouse)是来自一个或多个不同源的集成数据的中央存储库,通过对数据仓库中的数据分析,可以帮助企业,改进业务流程,控制成本,提高产品质量等。数据仓库的两个主要功能:存储分析数据和处理分析数据。
![ef8de0f6d7bb8a8d01bc65946ba74063.png](https://i-blog.csdnimg.cn/blog_migrate/68df27ea9c89ffeb33f8e31c19f6473a.jpeg)
数据仓库的来源一般是日志采集,业务系统数据,爬虫等,数据仓库的用途一般用作报表系统,用户画像,推荐系统,风控系统。
什么是日志采集?记录用户的行为日志,用户搜索什么关键字,用户把什么产品加入了购物车,用户购买了什么产品,之后用于分析用户,做推荐系统做准备,数据