身边朋友知道我在阿里云工作后,总是问我一些专业上的问题:
啥是数据库?
啥是数据仓库?
啥又是大数据?
今天我特别请来了业务的同学给大家讲讲清楚,想知道答案,看下面这篇就够了!
数据处理的起源 人类的发展,离不开数据的处理。最早的数据处理方式是什么?可能是结绳记事——这种古老的数据处理方式,包含了现代计算机拥有的数据存储、查询、分析等全部功能。 这个方法貌似可以,但是数据量稍微大一点的话……
后来,人类创造出了文字后,数据处理能力就大多了。一个典型的“应用”是,从旧石器时代开始,人们就通过甲骨文进行记账。
到新石器时代中晚期,母系氏族社会经济高度发展,人们开始创造并广泛采用成套的刻划符号进行记录、计量。
数据库的诞生
现代数据处理革命性的进展,要等到1960年。为了解决零件管理问题。一款叫做ICS的软件被研发出来了,专门用来管理这些零件信息。
后来以此为基础诞生了大名鼎鼎的IMS(Information Management System)数据库。这是现代数据库的祖先。
如何理解数据库呢?
可以把它想象为加强版的EXCEL,在一个表格中记录数据。例如学生的成绩单,记录有姓名、学科、成绩信息。想要查询下学生的平均成绩,只需要按顺序遍历这个表格,加和取平均数。
如果学生很多,对于EXCEL来说那就比较麻烦,但对于数据库来说则比较简单,可使用一种叫SQL的语言,通过描述性的交互取得数据,非常方便。
数据仓库的诞生
数据库的诞生,很好地解决了保存、使用数据的问题,大量类似的产品涌现出来。
但到了上世纪70、80年代,企业管理的内部数据发生了一些变化,一方面数据量越来越大,另一方面使用复杂度提高很多。各种复杂报表令人非常头疼,要在其中挖掘出数据背后的价值,当时的数据库已经跟不上需求。
于是,专门用于数据分析的数据库诞生了——1988年数据仓库(Data Warehouse)的概念第一次被提出了。
数据仓库之于数据库就如同F1跑车与普通轿车的区别。
普通轿车突出功能性、舒适性、安全性等等,可满足通用化的全面需求;而F1跑车则强调极致性能,而牺牲了舒适性等。数据仓库就是针对数据分析类场景,有特殊定制优化的产品。
大数据的冲击
到了上世纪90年代,随着互联网的兴起,数据量爆炸式增长,数据处理规模已经从MB(1首MP3)、发展到TB(20万首歌)乃至EB级(2亿首歌)的惊人规模。
此外,数据处理还产生了实时性等新要求,基于传统架构的数据仓库也面临巨大挑战。
就在这个时候,大数据概念被首次提出了,拉开了“大数据”时代的大幕。原来令人困扰的问题,似乎一夜之间找到答案。
不同于今天大家耳熟能详的大数据,这里的大数据可以理解为一种数据处理技术,简单说,就是在单台计算机简单计算的基础上,通过堆积计算机这样的线性扩展方式来处理数据。
数据库和数据仓库当时处理不了的海量数据,在这种分布式处理思路下迎刃而解,数据库几十年的积累,一夜之间被大数据吊打。
回归数据库
然而,大数据的狂野架构,从诞生之日起就决定其短板:分布式的方式固然很方便扩展,但是,作为大数据技术的基本单元,单机技术设计很粗糙,因此很快暴露出计算效率不高、精确性、准确度不足等问题。
而大数据技术的短板,正式数据库的强项。
事实上,后来大数据体系中引入SQL、MPP引擎、列存等等,正是吸取了数据库几十年来积累的一点点精华。但是大数据技术的基础过于野蛮,因此很难改进。
而此时,因为分布式协议的成熟,为数据库解决此前无力承受的海量数据、多模异构等问题提供了技术方案。数据库的春天,又回来了!
说到分布式,相信很多人已经想到了云计算。正是分布式的云计算的兴起,让人们获取算力像获取自来水一样方便:即开即用,按需取用。而正是云计算与数据仓的“联姻”,让数据库用云计算的能力迎来新生。
云端数据仓库,融合了云计算和数据库的能力:既可以通过云的能力无限弹性扩展,提高海量数据处理能力,又能通过数据库的能力,对数据进行复杂精细的分析。
云数据仓库有多强?
看看阿里云数据仓库AnalyticDB
阿里云自主研发的云原生数据仓库AnalyticDB,顺应这一潮流而诞生。
AnalyticDB采用存储计算分离+多副本架构,支持从1个节点到最大5000节点的实时按需弹性扩容,可实现PB级数据存储、查询秒级响应,解决了传统分析型数据库在数字时代的性能瓶颈,使业务分析效率从天级提升到分钟级乃至秒级。
在TPC最新发布的面向复杂分析场景TPC-DS 10TB权威基准测试中,AnalyticDB性能指标刷新世界纪录,荣登榜单第一名。
在刚刚公布的2019年度浙江省科学技术奖励大会上,AnalyticDB荣获科技进步一等奖。
(再想想,几千年前,我们还在用结绳记事……现在在用的东西,已经彻底看不懂了)
目前,AnalyticDB已经服务于阿里经济体及众多外部企业用户,涵盖金融、政府、零售、互联网、教育等诸多行业,帮助更多企业从传统数仓升级到云原生数仓,体验云端数仓的魅力。
我们始终相信,科技的未来,一定会更加美好。
数据处理的起源 人类的发展,离不开数据的处理。最早的数据处理方式是什么?可能是结绳记事——这种古老的数据处理方式,包含了现代计算机拥有的数据存储、查询、分析等全部功能。 这个方法貌似可以,但是数据量稍微大一点的话……
![703dca3946de865eda77c50d2c186e31.png](https://i-blog.csdnimg.cn/blog_migrate/c9e65d4ff34fc833befa4620b3985d30.jpeg)
![9bc7d10fbde4a0e89b3ffedadcd55275.png](https://i-blog.csdnimg.cn/blog_migrate/7c6c0bc3793b717953638afd4e988e2b.jpeg)
![df8461008e92ae4b0008cea6f5811c88.png](https://i-blog.csdnimg.cn/blog_migrate/507f5f8ff576aa9a9cfbd0fd01cf661b.jpeg)
![e0b96e50d9a8cdc0fb043f39c401d0ab.png](https://i-blog.csdnimg.cn/blog_migrate/fe906957969e08fe509f815e396fbcbc.jpeg)
![171095ad8fb849463cfa5f1c3a9200ce.png](https://i-blog.csdnimg.cn/blog_migrate/1b374d3d944a87cb58a42a0f42af3c92.jpeg)
![1d18b937cd42856a96c93ddbfd174a26.png](https://i-blog.csdnimg.cn/blog_migrate/c365e20ba97d402e7282c5f6b6808113.jpeg)
![5edfbb3ecab79b6cab4c579e24b6dce6.png](https://i-blog.csdnimg.cn/blog_migrate/dd62a284fe767fa894fc05aee22833de.jpeg)
![a9d14025309e1c9776d9cc6c4e052e8b.png](https://i-blog.csdnimg.cn/blog_migrate/4202455132585b335824b2fe9c4cb114.jpeg)
![06a1b057b01fc62f4b895f9624939377.png](https://i-blog.csdnimg.cn/blog_migrate/d2a23e81cf654838d8e0a4b13b1dfc32.jpeg)