浅谈数据仓库、商业智能、数据挖掘、大数据、云技术的前世今生。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lzw5210/article/details/74502659

开题之前先做声明,以下内容纯为我一家之言。


何为数据仓库? 

数据仓库(Data Warehouse可简写为DW或DWH)。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

简单概括:将多个操作型信息系统数据集中在一起,然后进行加工、处理,最后提供给数据使用方。而数据仓库是面向主题的,即数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。对于主题很多人有误区,认为针对某一方面出分析报表,该分析报表就是一个主题,这么理解是不准确的。

简单概括主题,假如你有柜面交易系统、网银系统、ATM系统、支付系统等,某一天BOSS心血来潮想看全行客户基础信息,于是数仓将这些系统客户信息抽过来,但BOSS要看的是全行信息,不是各个系统孤立的信息,于是数仓将数据加工成一张汇总的客户信息表。这张客户信息表是以“客户”为主题的。BOSS看完后很满意,于是想看这些客户的征信信息、资产信息等。这些信息统一围绕客户这个主题,被称为“客户”的主题域。主题域的数据是介于ODS层与分析应用层之间的粗粒度数据。在具体点说,假如BOSS想看本行客户的存款情况。那本次需求会用到客户和存款两个主题。你可以把主题想象成积木,具体几个积木拼在一起,完全看你需求了。

何为商业智能?

商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

简单概括:基于数据仓库数据进行多维度分析。上面提到的分析报表可以归为商业智能范畴。


何为数据挖掘?

数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过统计、在线分析处理、情报检索、机器学习、专家系统(依过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

简答概括:在看似杂乱无章的数据中寻找规律、预测趋势,其中典型代表是啤酒与尿布的故事。


何为大数据?

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点:

1、Volume(大量)

2、Velocity(高速)

3、Variety(多样)

4、Value(低价值密度)

5、Veracity(真实性)

简单概括:随着互联网行业的崛起出现了井喷式增长的数据,这样大量的、多样的、低价值密度,传统结构化数据库技术处理不了的数据称为大数据。值得注意的是,由于近年大数据风潮的涌起,很多人盲目跟风,宣称在做大数据分析,殊不知概念都没搞懂,与大数据相差甚远。


何为云技术?

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。

云技术基于云计算,云计算的关键技术:

1、虚拟化技术(CPU、操作系统、服务器)

2、分布式海量数据存储(HDFS等分布式存储系统)

3、海量数据管理技术(HBase等Nosql)

4、编程方式(Map—Reduce)

5、云计算平台管理技术(自动化、智能化运营)

简单概括:期初为了处理海量增长的数据,于是出现了以Hadoop为代表的新兴技术,但随着技术的发展,人们发现这种海量处理数据的能力,还能用在虚拟化上,于是就出现了云技术。

说到这,笔者不禁想起某潮公司的云产品,在我看来就把VMware装在PC机上然后开几个虚拟机,就说自己是云。PC机换成了服务器,VMware换成了自主研发的虚拟化软件,硬盘换成了存储。说好的分布式存储系统呢?说好的Map—Reduce呢?说好的可扩展性呢?要知道,在云技术里损坏是常态,哪用的起昂贵的服务器,都是廉价的PC,并且任何PC损坏都不影响正常提供服务。

 

说了这么多,最后总结一下他们之间的前世今生:

随着企业信息系统越来越多,人们发现将数据集中,并统一处理已迫在眉睫,于是出现了数据仓库,当数据积累到一定量时,发现可以利用这些数据进行统计分析,于是出现了商业智能。但人们不满足于此,希望能在杂乱无章的数据中寻找规律、预测趋势,于是出现了数据挖掘。再后来互联网行业崛起,出现了大数据,这些数据传统数据库技术无法处理,于是出现了Hadoop为代表的新技术,该新兴技术逐渐成熟,于是有了现在的云。

阅读更多

没有更多推荐了,返回首页