十年数据库流行度,哪款是你的最爱

     作者:萝卜大杂烩

     来源:周萝卜

准备写一个系列,在年终岁尾之际,盘一盘大家或者是本人比较关心的一些数据。文章内容会包括数据获取的过程和数据可视化结果。今天先来看看各大数据库在过去一年的表现吧!

先来看看数据库流行度总体走势

数据获取

所有的数据都来源自网站:https://db-engines.com/,一个数据库流行趋势统计网站。

Method 1

我们先来看获取数据方法一
首先我们可以在下面地址中看到一个包含所有数据库信息的表格

https://db-engines.com/en/ranking

然后可以进入到每个数据库详情页面中,该数据库历年流行度数据都会在页面加载之后包含在 JavaScript 的变量中

https://db-engines.com/en/ranking_trend/system/Oracle

所以我们可以通过解析该 JavaScript 代码来获取每个数据库的历年数据,同时为了加快抓取速度,使用了异步请求

先抓取所有数据库名称信息,通过 pandas 的 read_html 方法可以方便的读取 html 中的 table 数据

import pandas as pd


mystr = ' Detailed vendor-provided information available'


def set_column3(column3):
    if mystr in column3:
        column3 = column3.split(mystr)[0]
    return column3


url = 'https://db-engines.com/en/ranking'
tb = pd.read_html(url)
db_tb = tb[3].drop(index=[0, 1, 2])[[0, 1, 2, 3, 4, 5, 6, 7]]

# 处理数据
db_tb[3] = db_tb[3].apply(set_column3)

# 保存数据
db_tb.to_csv('db_tb.csv')

异步抓取数据库详细信息

async def fetch(session, url):
    async with session.get(url) as response:

        return await response.text()


async def get_db_data(db_name):
    url = 'https://db-engines.com/en/ranking_trend/system/%s' % db_name

    async with aiohttp.ClientSession() as session:
        res = await fetch(session, url)
        content = BeautifulSoup(res, "html.parser")
        content.find_all("script")
        db_data = content.find_all("script")[2].string
        src_text = js2xml.parse(db_data)
        src_tree = js2xml.pretty_print(src_text)
        data_tree = BeautifulSoup(src_tree, 'html.parser')
        data_tree.find_all('number')
        data = []
        for i in data_tree.find_all('number'):
            data.append(i['value'])

        date_list = gen_time('%s-%s' % (data[0], str(int(data[1]) + 1)))
        date_value = list(zip(date_list, data[3:]))
        d_data = zip([db_name for i in range(len(date_value))], date_value)

        await save_data(d_data)


def gen_time(datestart, dateend=None):
    if dateend is None:
        dateend = time.strftime('%Y-%m', time.localtime(time.time()))
    datestart=datetime.datetime.strptime(datestart, '%Y-%m')
    dateend=datetime.datetime.strptime(dateend, '%Y-%m')
    date_list = list(OrderedDict(((datestart + timedelta(_)).strftime(r"%Y-%m"), None) for _ in range((dateend - datestart).days)).keys())
    date_list.append('2019-12')
    return date_list


if __name__ == '__main__':
    db_tb = pd.read_csv('db_tb.csv')
    db_name = db_tb['3'].values.tolist()
    loop = asyncio.get_event_loop()
    tasks = [get_db_data(name) for name in db_name]
    loop.run_until_complete(asyncio.wait(tasks))
    loop.close()

Method 2

下面再来介绍第二种方法,方法更简单,但是抓取时需要处理的地方更多些

我们可以直接访问下面的地址,同样的,在页面加载完成后,会返回所有数据库的历年数据信息

https://db-engines.com/en/ranking_trend

那么我们就可以直接解析此处的 JavaScript 信息,获取对应数据库的数据即可

不过由于有些数据库的历史数据有缺失,所以需要做特殊处理

    for i in data_tree.find_all('object'):
        date_list = gen_time('%s-%s' % (year_list[0], str(int(year_list[1]) + 1)))
        data = []
        tmp_list = []
        db_name = i.find('string')
        if i.find('null'):
            null_num = len(i.find_all('null'))
            tmp_list = list(zip(date_list[:null_num], ['0' for i in range(null_num + 1)]))
            date_list = date_list[null_num:]
        for j in i.find_all('number'):
            data.append(j['value'])

两种方法各有优缺点,小伙伴儿们可以自行选择适合自己的方式。

拿到数据之后,我们就可以做统计分析啦

数据库总榜

可以看出,关系型数据库还是当今的王者,流行度前四名都被它们所占据,而 Oracle 虽然连年表现不佳,为人诟病,但是依靠多年的积累,仍然牢牢把持着榜首的位置。

MySQL 似乎从来没有令用户失望,也是稳稳的占据二哥的位置。

而唯一挤进前五的非关系型数据库则是 MongoDB,在文档数据库领域,绝对是大哥大!

我们再通过一张散点图来感受下不同数据库之间的差距

主流数据库榜单

我这里又选取了总榜中的前五名,再加上 key-value 数据库的代表 Redis 和搜索数据库的代表 ES 来作为对比对象,先来看看它们在 2019 年的整体走势

可以看到它们在2019年总体表现还是比较平稳的,其中榜首三强都是在年末出现了不同程度的下滑,而与之对应的则是 PG 数据库的增长了。

再来看下这七大数据库今年的增长率

可以看到 MySQL 是增长率最高的数据库,而 redis 在 2019 年则表现不佳,呈现了负增长的趋势。

下面我们再把时间拉长,看看从 2012 年到现在,各大数据库的表现情况

Oracle 和 MS Server 整体来看确实呈现下降的趋势,而 MySQL 则稍稍有些增长。同时 PostgreSQL 增长比较明显,尤其是从 2017 年开始,流行度超越 MongoDB,相对应的,这个时间段也是榜首三大数据库的下滑期。

接下来再根据不同的数据库类型,来分别查看下各种类型数据库的流行趋势

关系型数据库

对于关系型数据库,榜首四强实在太强

我们去除掉这四种数据库,来看看其他关系型数据库的历年走势

可以看出,IMB 的 DB2 和微软的 Access 近年都有下滑的趋势,而作为 MySQL 的开源版 MariaDB,则呈现了很强的上升趋势,看来大家拥抱开源的信念不减呢!

key-value 数据库

再来看看 k-v 数据库,毫无疑问,近些年 Redis 风光无限,占据了大部分的市场份额。

而曾经的王者 Memcached,则因为种种原因,流行度不断下滑

可以看到,2016 年为起点,随着云计算的风起云涌,亚马逊和微软的 k-v 数据库增长迅猛,而 Memcached 则逐渐衰落,但是 Redis 凭借其良好的表现,仍然一路高歌!

文档数据库

现在进入到文档数据库时间,毫无疑问 MongoDB 的地位无可动摇

而亚马逊的 Amazon DynamoDB 数据库凭借着云服务的兴起,也成功占有一席之地

从历年流行度走势图中可以看出,MongoDB 在持续增长的路上,一骑绝尘了。而 Amazon DynamoDB 则从 2017 年开始慢慢占据市场份额,拉开与其他文档数据库的差距。

时序数据库

时序数据库也有一个霸主,那就是 InfluxDB,不过整体来说,各方势力实力均衡!

Kdb、Prometheus 和 OpenTSDB 等都在各自擅长的领域发挥着不可替代的作用。

当然啦,InfluxDB 数据库就是那颗最耀眼的星,迅猛的发展趋势,让它成功杀出重围。而 RRDtool 数据库却多少有些高开低走的味道,不知道什么时候能够看到它王者归来!

图数据库

下面我们再来看看图数据库,它在知识图谱领域是当仁不让的首选数据库类型,尤其是 Neo4j,就算你没有使用过,怎么也听说过它的大名吧!

再来看看近些年的流行度走势呢

Neo4j 和 Microsoft Azure Cosmos DB 走势迅猛,看来在知识图谱兴起的时代,图数据库也要呈现二分天下的态势了。

搜索数据库

最后我们再来看看搜索数据库的情况

没有一丝丝疑问,大火的 ES 成功占据榜首,之后就是 Splunk 和 Solr,这三位基本占据了搜索数据库的大部分市场。

从历年走势中看出,Solr 有些扎心了,随着 ES 和 Splunk 的强势崛起,Solr 似乎慢慢归于平静了。

不过无论是 ES 的耀眼光芒还是 Splunk 的新贵登基,可以预见的是在未来的很长一段时间里,搜索数据库领域仍然会是它们的三足鼎立!

最后再通过一个视频,来看看不同类型数据库的流行度变化情况

作者:周萝卜,Python 学习者。爱好爬虫、数据分析及可视化等,个人公众号《萝卜大杂烩》,期待与你相遇~

◆ ◆ ◆  ◆ ◆
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:

猜你喜欢● 笑死人不偿命的知乎沙雕问题排行榜● 我用Python纪念了那些被烂片收割的智商税!● 互联网大佬学历&背景大揭秘,看看是你的老乡还是校友● 上万条数据撕开微博热搜的真相!● 你相信逛B站也能学编程吗? 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于C++&OPENCV 的全景图像拼接 C++是一种广泛使用的编程语言,它是由Bjarne Stroustrup于1979年在新泽西州美利山贝尔实验室开始设计开发的。C++是C语言的扩展,旨在提供更强大的编程能力,包括面向对象编程和泛型编程的支持。C++支持数据封装、继承和多态等面向对象编程的特性和泛型编程的模板,以及丰富的标准库,提供了大量的数据结构和算法,极大地提高了开发效率。12 C++是一种静态类型的、编译式的、通用的、大小写敏感的编程语言,它综合了高级语言和低级语言的特点。C++的语法与C语言非常相似,但增加了许多面向对象编程的特性,如类、对象、封装、继承和多态等。这使得C++既保持了C语言的低级特性,如直接访问硬件的能力,又提供了高级语言的特性,如数据封装和代码重用。13 C++的应用领域非常广泛,包括但不限于教育、系统开发、游戏开发、嵌入式系统、工业和商业应用、科研和高性能计算等领域。在教育领域,C++因其结构化和面向对象的特性,常被选为计算机科学和工程专业的入门编程语言。在系统开发领域,C++因其高效性和灵活性,经常被作为开发语言。游戏开发领域中,C++由于其高效性和广泛应用,在开发高性能游戏和游戏引擎中扮演着重要角色。在嵌入式系统领域,C++的高效和灵活性使其成为理想选择。此外,C++还广泛应用于桌面应用、Web浏览器、操作系统、编译器、媒体应用程序、数据库引擎、医疗工程和机器人等领域。16 学习C++的关键是理解其核心概念和编程风格,而不是过于深入技术细节。C++支持多种编程风格,每种风格都能有效地保证运行时间效率和空间效率。因此,无论是初学者还是经验丰富的程序员,都可以通过C++来设计和实现新系统或维护旧系统。3

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值