Sybase建设上海社保卡数据仓库案例

转载 2012年03月28日 15:07:12

行业:政府机关 应用:数据仓库

2007-05-23

市场背景

随着社会主义市场经济体制的建立和不断完善,中国社会保障体系建设的步伐明显加快,目前已初步建立起包括养老、医疗、失业、工伤和生育保险在内的社会保障体系,为加快国有企业改革与发展提供了有利条件。社会保障事业的发展,保证了劳动者基本生活需求,随着业务范围和业务量的迅速增长,手工处理模式已远远不能满足社会发展需求,要尽快建立独立于企业之外的社会保障事业的信息化管理势在必行。

项目背景

基于以上的社会需求,2002年,上海市社会保障卡中心正式开通。该中心主要承担上海市社会保障卡系统市级数据交换平台和共享数据库的建设和维护,实施政府业务部门之间的信息共享。经过社会保障卡一期和二期工程的建设,中心目前已建立面向市民提供保障卡持卡人资料采集、申请、发放及管理的全套计算机网络与处理系统,制定了保障卡中心与公安、劳动和社保、医保、民政及公积金等有关政府行政部门信息交换与共享的标准和规范,规定了信息交换的内容、格式等方面,并形成了上海市保障卡服务中心个人档案数据库资料,为数据深度利用奠定了物质基础。

不过,上海社保卡现有的多个系统主要是业务系统,虽然在业务管理工作中发挥着不可缺少的重要作用,但数据具有一定的分散性和独立性,如何保证业务功能的完备和统一,处理流程的规范与合理,信息交换的通畅和一致,以及信息处理和信息服务的层次化和个性化成为下一步发展的关键。因此在业务系统完善和成熟以后,作为最重要的一个发展方向就是以数据仓库为基础的决策支持系统建设,它包括信息资源的有效采集和管理、合理衍生和使用、充分挖掘和利用,实现联机事务处理(功能支持)和联机分析处理 (信息支持) 的合理隔离和有机统一,从而实现对各种业务及其管理的强有力支持。此外,随着上海市社会保障卡系统的发展成熟,共享数据库中的数据还会不断积累,通过建立数据仓库系统,对这些数据进行再利用和深加工不仅有利于市民服务信息中心业务的发展,而且可以使共享数据库更好地服务于政府的相关部门,初步实现共享的市民基本信息在政府部门决策中的运用。

建设目标

目前,社保卡操作的核心数据库的容量为500GB,包括社会保障卡的持卡人个人基本情况以及照片指纹、制卡生产和交易等信息。其中,持卡人的照片和指纹信息占270GB。但在社保卡数据仓库的近期建设过程中,持卡人的照片和指纹信息暂不列入数据仓库的分析范围内,所以数据仓库所要分析的源数据量为230GB,据此产生的综合数据容量在100GB以内。同时,由于共享数据库的不断完善以及分系统数据的获取分析的需求,其数据仓库的数据容量还将不断的扩充。并且其他数据如: 市民的各类社会保障基金的数据和社会救助优抚数据不断地增加进来,因此5-8年之内总数据量完全有可能达到1TB左右产品需求。

依据自身的需要并结合上海市社会保障卡中心目前的现状,上海市社会保障卡中心在数据仓库的建设方面确定了明确的目标。上海市社会保障卡中心表示,通过数据仓库系统的建设,希望可以加强目前业务系统及数据处理中心的功能,并解决部分目前信息系统所不能解决的问题。因此数据仓库建设必须要做到以下几点: 

1. 发挥信息对决策的指导作用,提高决策分析人员的工作效率。

2. 实现联机事务处理和联机分析处理的合理隔离和有机统一。

3. 实现业务数据到数据仓库的自动装载,系统管理各种业务系统产生的数据。

4. 以全新的方式实现分析型应用的功能。

5. 实现基于浏览器方式的应用界面,实现应用系统前端的零维护。

6. 建立社保卡数据分析的平台。从而提高社保卡信息系统建设的先进性,逐步完善业务管理职能。

同时通过数据仓库各个阶段的实施,具体从功能上要求达到:

1. 为行政管理人员(包括政府有关劳动与保障管理部门、政策制定部门,以及保障卡中心管理部门)提供各种信息指标和统计图表查询。要求简单友好易用,信息呈现的方式可以是电子表格、直方图、饼图或折线趋势图等形式。

2. 为分析人员提供联机多角度、深入浅出的数据分析界面,使其能够回答业务问题。如医疗保险改革后市民医疗费支出对生活水平有多大影响以及对哪些人有影响。

3. 为管理人员提供因突发性和临时性的需求,而需要生成报表的界面。要求查询条件和组合方式灵活。

在经过慎重的反复评测与比较后,上海市社会保障卡中心最终选择了全球领先的企业及移动基础架构供应商Sybase公司。之所以选择Sybase,上海市社会保障卡中心表示,首先,在数据仓库领域Sybase具有的崇高知名度及显而易见的强大的实力,给予了我们极大的信心。其次在具体的沟通过程中,Sybase提供的方案完全满足了我们提出的各种要求。Sybase最终赢得我们这个项目可以说是水到渠成的表现。

方案规划

在赢得上海市社会保障卡中心的项目后,Sybase开始了更进一步的解决方案规划。Sybase认为在开展社保卡数据仓库工作时,应遵循“统一规划,分步实施”的原则,即采用数据仓库分步实施的设计思想。因此,Sybase采用了螺旋形的开发模式对社保卡数据仓库工程进行建设,他们把系统大致分为三个阶段来实施,并明确了各个阶段的目标。

第一阶段目标

第一阶段数据仓库系统主要包含业务系统中的重要方面,不要求覆盖业务系统的所有方面; 针对目前数据较为齐全,且迫切需要进行分析的主题??社保卡数据分析和残疾人数据分析,以持卡人基本信息、社保卡生产的数据和残疾人的基本信息为基本源数据,建立一个面向该主题的数据仓库原型系统,从而解决该业务领域内日常的统计分析工作。因此第一阶段的工作重点是建立全面的主题化模型,完成现有部分数据清洗和迁移,构筑社保卡中心数据仓库基础平台,并在此基础上开发关键的业务报表和查询。

第二阶段目标

第二阶段以社保卡全局性数据仓库系统建设作为主要目标,将包含社保卡范围内所有的信息系统数据,以及对社保卡宏观决策支持相关的外部数据,本阶段开发的重点是构建OLAP在线分析系统平台,前端的应用从简单的报表查询向分析型应用扩展,增加动态报表,即席查询功能,为逐步引进和采用人工智能、数据挖掘、知识发现等智能信息处理先进技术手段做好数据准备。

第三阶段目标

第三阶段在对社保卡前两个阶段的数据仓库系统进行完善的基础之上,引进和采用人工智能、数据挖掘、知识发现等智能信息处理先进技术手段,实现各个层面的智能决策支持,构筑起社会保障管理现代化信息支撑平台,实现全面的网络化信息应用和服务。

根据这一设计思路的指导,Sybase设计的上海市社会保障卡中心数据仓库系统

第一期数据仓库系统的数据来源及其功能,其中多维分析主要是第二期的重点,数据挖掘为第三期的重点。

方案实施

上海市社会保障卡中心数据仓库的实施主要包括五个部分的内容: 数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现以及数据仓库的维护和管理。因此,社保卡中心数据仓库系统将包括以下工具: 数据模型设计工具、数据转换与集成、数据仓库存储和管理、ODS数据存储和管理、元数据管理、数据可视化分析、数据挖掘工具。

1. 数据仓库建模: 数据仓库的设计人员,模拟整个数据仓库系统内的各种数据资源设计数据仓库模型,为数据仓库的实施提供蓝图,并从一个单一的控制点出发实现对数据仓库的配置。数据仓库设计工具必须能够使用最通用的关系数据库和多维数据库的设计方法建立数据仓库模型,并且为设计人员建立一个非常友好而单一的环境,能让数据建模人员和系统设计人员很方便地处理数据仓库设计中特殊的应用需求。

2. ETL过程: 通过ETL工具将数据从数据集中区(ODS)经过处理以后加栽到数据仓库存储环境中,完成数据的抽取、转换、清洗及加栽。并且通过一套紧密集成的工具使数据集市建立的步骤自动化,易于使用,具有强大的功能和性能。通过有效的ETL工具,数据仓库开发者可以使用虚拟设计直接对数据的移动和处理进行建模。开发者不再需要进行编码,也只需要建立一个处理模型,对每个数据移动或处理步骤进行图解,这个工程看起来就象一个流程图,它的建模性能提供了最大的设计灵活性。这样,不仅易于学习和使用,还为数据仓库开发者提供了一个图形化的、高度面向客户的方式来管理更加复杂的方案。

3. 数据仓库存储: 实现数据仓库中的数据存储和管理。数据仓库中数据存储和管理引擎必须能够支持数据仓库应用中大量交互式的和无定型的查询处理的需要,用户在查询时有极大的灵活性。用户可以提任何问题,可以针对任何数据提问题,可以在任何时间提问题。无论提的是什么问题,都能快速得到回答。

4. 数据展现: 使用目前流行和易用的前端分析和展现产品,实现数据的展现和分析。并且提供基于WWW服务器/浏览器的配置方式及基于客户/服务器形式的配置方式。展现工具必须为用户提供一个完整的智能化电子商务软件解决方案的工具包,其中包括了查询、生成报表、在线分析处理、成套分析、时间序列分析和数据钻取功能,还提供了管理工具,使信息技术人员能在企业内建立和配置产品。使用户可以在Internet上进行特殊查询、生成报表和数据分析,并且具有分布式的结构,核心的功能在服务器上,基于Java的程序在桌面上运行,使每个用户的个人终端无需安装和维护应用程序软件和数据库中间件,这样机构的成本可以更有效的用来配置商业智能软件功能,并且通过外联网将此益处传递给供应商、合作者和客户。

5. 元数据管理: 元数据是指“关于数据的数据”,是数据仓库环境中的关键部分。它决定了数据仓库信息的设计方式和构造方式,还确定了外部源数据与数据仓库模型之间的对应以及当初抽取/聚合源数据时所用的算法。在数据仓库的建设中,将数据加载到数据仓库只是完成了整个工作的很小的一部分。在数据仓库建成并投入运行后,管理方面仍然面临巨大的挑战。因此,通过对元数据的运用和管理,在信息系统与数据仓库的用户间架起了一座桥梁。

实施效果

在经过紧张的设计与实施工作后,上海市社会保障卡中心数据仓库系统终于为上海市社会保障卡中心带来了可喜的变化,其实施效果主要表现在以下几个方面:

1. 上海市社会保障卡中心数据仓库系统构建了社保卡主题化模型;

2. 上海市社会保障卡中心数据仓库系统将业务系统和数据仓库系统进行了有效的集成,满足最终用户的各种需求,即能看到历史统计系统,也可以及时了解最新的当前状况;

3. 上海市社会保障卡中心数据仓库系统完成了内部数据的整合,将各个不同业务系统的分布式存放的数据进行一致性转化,使数据仓库今后成为社保卡真正意义上的数据中心,满足各种不同应用系统的数据需求;

4. 上海市社会保障卡中心数据仓库系统进行了历史数据的清洗、修复,解决因多次业务变化造成的数据缺损、不完整问题,实现历史数据的完整性;

5. 上海市社会保障卡中心数据仓库系统完成社保卡数据分析和残疾人数据分析相关的查询、报表统计、分析应用;

6. 上海市社会保障卡中心数据仓库系统为不同用户提供了个性化的使用模式,不同类型用户可以采取诸如查询、报表、分析、定制化操作等多种使用模式;

7. 上海市社会保障卡中心数据仓库系统实现了基于B/S结构的应用模式,前端支持基于浏览器的各种查询、报表、分析等操作,使今后的维护工作降到最低;

8. 上海市社会保障卡中心数据仓库系统实现了各个层面的智能决策支持,构筑起社会保障管理现代化信息支撑平台,及全面的网络化信息应用和服务。

客户评价

经过一段时间的应用,上海市社会保障卡中心对该系统的效果非常满意。上海市社会保障卡中心表示:“上海市社会保障卡是国内第一张发行规模如此庞大、应用领域如此广泛的社保卡,无论是从发行的面还是从发行的量、功能、管理系统,上海是走在最前面的。凭着这张卡,用户可以享受医疗保险待遇,进行医疗费用的结算; 办理社会保障事务,包括申领社会救助金、申办公积金贷款、申请职业技能鉴定、办理求职登记、参加职业培训,等等。以后,上海市民的生老病死都将与这张薄薄的社保卡息息相关,个人成为信息社会的数据。Sybase公司为我们建设的数据仓库系统表现非常令人极为满意,我们的工作因为这套系统得到了极大的提高与保障。”

认识数据仓库建设意义

随着近几年互联网的蓬勃发展,网购用户成级数级增长。仅去年双十一当天销售额就突破了900多亿元。各家网购平台都开始收集交易数据,分析各地区各行业客户购物习惯,同时,利用交易数据和客户行为推出新产品或新功...
  • JAVA_QinWXiao
  • JAVA_QinWXiao
  • 2016年02月28日 13:29
  • 1716

数据仓库建设方法论

项目愿景:     -全方位、高扩展性、高性能的DW系统     -     - 项目目标:     -     -     - 项目范围: 项目定位:...
  • yuanqingyu0123
  • yuanqingyu0123
  • 2014年11月18日 17:27
  • 903

数据仓库建设的方法 绝对的好文

原文链接:点击打开链接 在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp) 其中,数据仓库(D...
  • dafei19910606
  • dafei19910606
  • 2016年09月12日 17:22
  • 1074

创业公司做数据分析(六)数据仓库的建设

本文重点探讨了数据处理层中数据仓库的建设,旨在构建一个适于分析的数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基...
  • zwgdft
  • zwgdft
  • 2017年02月02日 19:36
  • 7863

数据仓库维度建模举例

设计数据仓库常用到的模型是维度模型。例如决策者想知道去年一年里哪个产品在哪个地区销售得最好,那么决策者想要得到的信息有3个:时间、产品和地区,这3个信息称为“维度”。维度模型的作用是将决策者所要分析的...
  • chenmeng2192089
  • chenmeng2192089
  • 2013年11月19日 16:03
  • 1900

数据仓库—数据仓库—Sybase IQ 介绍

http://blog.itpub.net/8128313/viewspace-895289/ 软件厂商: Sybase 授权方式: 商用软件 版本号: 无 版本类型: 企业版 语言版本...
  • caolaosanahnu
  • caolaosanahnu
  • 2014年07月29日 20:35
  • 574

基于Spark DataFrame的数据仓库框架

数据存储的多样性,对数据分析、挖掘带来众多不变。应用瓶颈表现在两个方面: 1.      传统数据库mysql等的数据处理能力有限,随着数据量的增加,join、groupby、orderby等操作出现...
  • lulynn
  • lulynn
  • 2015年11月30日 10:55
  • 3343

数据仓库概念(三) - 数据集市

1.  什么是数据集市?数据集市与数据仓库的区别?        数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ...
  • leicool_518
  • leicool_518
  • 2015年04月03日 07:15
  • 627

构建稳定成熟的数据仓库

根据浅显的数据仓库建设经验,结合Teradata TSM数据仓库建设方法论,谈谈如何构建稳定成熟的数据仓库 如果在初期建设没有一个完整的解决方案和长远的发展目标,在集市或者仓库不断扩大最终成为企业级...
  • zerohero_xij
  • zerohero_xij
  • 2015年08月24日 00:26
  • 563

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

导读: 整体架构数据采集数据存储与分析数据共享数据应用实时计算任务调度与监控元数据管理总结 一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说...
  • huanggang028
  • huanggang028
  • 2016年05月08日 18:53
  • 2112
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Sybase建设上海社保卡数据仓库案例
举报原因:
原因补充:

(最多只允许输入30个字)