数据产品&数据分析总监,2000年开始从事数据领域,从业传统制造业、银行、保险、第三方支付&互联网金融、在线旅行、移动互联网行业 。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业。很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业、互联网企业的数据平台所面向用户群体是不同的。那么,这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?我们先从两张图来看用户群体的区别。
用户群体之非互联网数据平台用户
企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。用户面对是结构化生产系统数据源。
用户群体之互联网数据平台用户
互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;想系统学习大数据的话,可以加入大数据技术学习扣扣君羊:522189307
互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。分析师参与数据平台直接建设比重增加。原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询。用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。
非互联网时代
自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构
- 约在1991年前的全企业集成
- 1991年后的企业数据集成EDW时代
- 1994年-1996年的数据集市
- 1996-1997年左右的两个架构吵架
- 1998年-2001年左右的合并年代
数据仓库第一代架构(2001-2002年) 海尔集团的一个BI项目,架构的ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的DTS 知道有哪些弊端,后便给出了几个DTS的截图。
① 功能:进销存分析、闭环控制分析、工贸分析等
② 硬件环境:
· 业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I
· 中央数据库服务器:4*EXON,2G,4*80GSCSI
· OLAP 服务器:2*PIV1GHZ,2G,2*40GSCSI
③ 开发环境:VISUAL BASIC,ASP,SQL SERVER 2000