前言
无论你是否专门从事大数据开发,作为一个开发人员,应该都听说过数据仓库的概念,那你知道为什么会出现数据仓库?数据仓库究竟是干嘛的吗?有什么价值和意义呢?那么本文就带到入门,揭开数据仓库的面纱。
数据仓库的由来
数据仓库为何而来,主要解决什么问题的?
先下结论:为了分析数据而来,分析结果为企业决策提供支撑。举个简单的例子,比如你们公司要要判断明年是否要进入生产口罩,那么就需要数据支撑,比如口罩市场的需求、饱和率、利润等等,然后借由分析结果,去做判断决策,而不是拍脑袋,不然大概率就是亏本的。
下面再以一个中国人寿保险公司发展为例,详细阐述数据仓库为何而来?
(1)OLTP系统处理业务数据
中国人寿保险(集团)公司下辖多条业务线,包括:人寿险、财险、车险,养老险等。各业务线的业务正常运营需要记录维护包括客户、保单、收付费、核保、理赔等信息。这么多业务数据存储在哪里呢?
这些通用的业务行为一般是发在联机事务处理系统(OLTP
), 其主要任务是执行联机事务处理,前台接收的用户数据可以立即传送到后台进行处理,并在很短的时间内给出处理结果。
通常来说,这些业务数据最终都是落在关系型数据库中的,关系型数据库(RDBMS)是OLTP典型应用,比如:Oracle、MySQL、SQL Server等
这只是最基础的业务,但是随着业务规模的不断发展,衍生出了更多的数据分析型需求,用OLTP可行吗?
(2)分析型决策需求衍生
随着集团业务的持续运营,业务数据将会越来越多。由此也产生出许多运营相关的需求问题:
- 能够确定哪些险种正在恶化或已成为不良险种?
- 能够用有效的方式制定新增和续保的政策吗?
- 理赔过程有欺诈的可能吗?
- 现在得到的报表是否只是某条业务线的&