大数据OLAP与OLTP分析

最新推荐文章于 2023-04-28 17:51:22 发布

weixin_34341117

最新推荐文章于 2023-04-28 17:51:22 发布

阅读量170

点赞数

文章标签：大数据 java python

原文链接：https://my.oschina.net/xiaominmin/blog/1597439

版权

2019独角兽企业重金招聘Python工程师标准>>>

大数据OLAP与OLTP分析博客分类： java

1. 首先，咱们先不拿大数据说事，先分析一下OLAP及OLTP。

OLAP: 联机分析处理（OLAP）系统是数据仓库系统最主要的应用，专门设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持。

OLTP: 联机事务处理(OLTP，On-line Transaction Processing)应用，它所存储的数据被称为操作数据或者业务数据。

所以从定位上来讲，OLAP的定位是用来做数据分析(类BI),OLTP适合做一些事务的类的数据管理如查询如订单数据的产生。

举个通俗的例子，一个小规模的电商网站，会有下单的流程，那么这个下单流程产生的订单会是在OLTP数据库中，而如果电商的CEO想看本个月的运营情况，如果订单统计，理论上是应该在OLAP数据库（或者仓库）。

所以从本质上来讲，OLAP是读为主而OLTP以写为主。

然后，我们在来做一个基本的分析，就是常见的分析方式：

Ad-hoc query：即席查询（Ad Hoc）是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。
固定字段分析：即用户的查询条件是固定的，我们可以按照定义好的字段进行报表提供，如周报、月报
关键字查询：如，用户的地址为北京市朝阳区XXXXX，那么提供按照北京市XXX为关键字的检索查询
统计类查询：如生成一些箱图，热力图等

可以简单分析一下就是，在OLTP中，合理设计的情况下会存在1，3类查询，而在OLAP中会在1,2,3,4类查询。

2. 接下来，我们分析一下传统技术的问题：

大家知道，不管在牛逼的系统，都逃不开硬件的限制，如磁盘IO、内存、CPU（往往也是大家忽略的）、网络IO。一般SATA硬盘的读写速度是在50~75M之间，普通网络均为千兆交换机，即100M传输速度。

那我们在来分析一下，数据库的特性：（本文章不讨论数据库的具体实现）

数据库能进行较快查询的原因是因为索引（及缓存）的存在，不同数据库的索引实现结构会稍微不太一样。索引也需要维护。

再结合我们之前讲到的分析，大家可以认为数据库在查询上的性能其实还是比较容易实现优化（结合数据库缓存），但是大家需要注意的是，如果查询的时候同时存在聚合（group by，sum，count），那么压力就会落在IO上，比如排序（因为单机内存有限，必须通过硬盘来实现排序）这个时候压力就会落到IO上（请回顾上文提到的性能），所以当我们需要返回的数据条数越大（尤其分页），那么数据库就会变的非常非常的慢。