大数据时代入门<一>——数据库与数据仓库

本文介绍了大数据时代入门的基础,重点关注数据库和数据仓库的区别与应用。数据仓库用于分析性报告和决策支持,而数据库则侧重数据管理和操作。通过实例展示了数据仓库在沃尔玛的啤酒与尿布关联分析、淘宝的定制推送以及法国电信客户行为分析中的作用。数据挖掘作为从大量数据中提取信息的关键,与大数据的量级比较展示了其在MB、GB到TB的不同层次。推荐了相关书籍以深入理解数据仓库和数据挖掘。
摘要由CSDN通过智能技术生成

大数据时代入门<一>——数据库与数据仓库

文\周凌宇

目录


###最先需要了解的名词
OLTP: On-Line Transaction Processing联机事务处理系统
OLAP: On-Line Analytical Processing联机分析处理系统
####1. 它们代表了什么?
从我们过去的接触中可以很快感知到数据库所对应的是OLTP,而数据仓库对应的是OLAP。
数据库中最常用的名词是“事务”,所有的操作都是面向事务的。
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

####2. 他们分别能做什么?
数据库技术可以实现数据的存储和管理数据,同时也是用户所需要的各种数据管理的方式。我们可以看到数据库可以管理信息系统、办公自动化系统等等系统必不可少的核心部分。因为现在技术一切数据需要管理。

数据仓库创建目的是为了分析性报告和决策支持。它为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。总的来说,数据仓库可以分析市场提供有效的提供企业决策。
###数据库和数据仓库/OLTP与OLAP
数据仓库的出现,并不是要取代数据库。并且,一般来说数据仓库就是由大量数据库数据构成的。数据仓库是为了解决数据库所不能解决的问题,数据库能够实现对数据的操作但不能分析数据。数据仓库通过对数据库数据集合的分析实现决策。
数据仓库建设是一个工程,是一个过程,而不是一种可以购买的产品。企业数据处理方式是以联机事务处理形式信息,并利用信息进行决策;在信息应用过程中管理信息。

数据库数据仓库
面向事务的设计面向主题设计的
一般存储在线交易数据一般是历史数据
尽量避免冗余有意引入冗余
为捕获数据而设计为分析数据而设计

###数据仓库与OLAP用在哪?
理论是晦涩的,所以我们应当用具象的方式向大家展示。
####1. 沃尔玛的啤酒与尿布
世界零售巨头沃尔玛发现:尿布与啤酒这两种风马牛不相及的商品摆在一起可以使尿布和啤酒的销量大幅增加。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。
相信很多人听过这个故事,最早,我们把它作为市场经济的一个典范。然而沃尔玛是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?
沃尔玛通过大量数据收集建立数据仓库而分析出的结果,对此结果进行决策,实际上,这是一个典型的数据仓库应用案例。

####2. 淘宝的定制推送
在中国,我们最常见的数据仓库应用是什么?在浏览网页时无处不在的广告推送。我们能发现推送的东西都是我们需要的,或是最近浏览的东西,这样的针对个人的精确型推送显然比无特点的广告要有效的多。
于是我们听到了一个词——数据挖掘。似乎在一夜间就变成了市场最紧缺的人才。那么这里说的数据挖掘就是对数据仓库进行的挖掘。
####3. 法国的电信数据仓库
法国电信通过建立数据仓库,收集数据进行分析,全面分析客户的使用行为,分析市场,有效建立欺诈模式库、及时检测通话行为发生的突然变化、建立预警系统。
###数据仓库与大数据
####数据挖掘

数据挖掘这一术语含义广泛,指代一些通常由软件实现的机制,目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。

  • 你搜索一条飞往塔斯卡鲁萨的航班,然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息
  • 你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术
  • 你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润
  • 用算法预测人们购票需求,航空公司以不可预知的方式调整价格
  • 智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信息

数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。
以上引用:http://www.alibuybuy.com/posts/85853.html
####量级比较
| 名称 | 数据量级 |
| ------------- |:-------------😐
| 数据库 | MB |
| 数据仓库 | GB |
| 大数据 | TB |
###最深入的了解
推荐书目:

《数据仓库》[美] 荫蒙(Inmon,W.H) 著
《数据挖掘:概念、模型、方法和算法》[美]坎塔尔季奇(Mehmed Kantardzic) 著
《数据挖掘 概念与技术(Data Mining Concepts and Techniques Third Edition)》[美] Jiawei Han,[美] Micheling Kamber,[美] Jian Pei,等 著

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值