gpu 数据库_GPU驱动的数据库可以为您做什么

最新推荐文章于 2022-09-21 13:45:46 发布

cxq8989

最新推荐文章于 2022-09-21 13:45:46 发布

阅读量796

点赞数

文章标签：数据库可视化大数据人工智能 java

原文链接：https://www.infoworld.com/article/3327561/what-a-gpu-powered-database-can-do-for-you.html

版权

gpu 数据库

SQL数据库的历史可以追溯到1970年代，并且自1980年代起就是ANSI标准，但这并不意味着该技术可以保持不变。它仍在变化，并且是GPU加速数据库的其中一种方式。

关系数据库的规模已经扩大到可以测量PB级甚至更高的数据集。即使出现了64位计算和数TB的内存来提高处理能力，也仍然需要大量数据处理-CPU只能管理这么多数据。那就是GPU出现的地方。

[了解更多： GPU计算是释放所有数据奥秘的关键。 •有关机器学习中GPU革命的全部内容。 • 构建自己的GPU服务器以进行深度学习。 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

GPU已从加速游戏的最初使命转变为加速几乎所有内容。英伟达已经精打细算地成为人工智能的代名词，这个过程需要并行处理大量数据以及可以很好并行化的其他任务。 AMD正开始追赶，但Nvidia遥遥领先。

说到核心，还差得远。 Xeon CPU最多具有22个内核。 AMD Epyc具有32个内核。 Nvidia Volta架构具有5,120个内核。现在想象一下，有5,000个以上的内核在数据上并行运行，这很清楚为什么GPU在大型计算项目中如此流行。

因此，出现了一种全新的数据库，从头开始编写，以支持和拥抱GPU及其强大的并行处理功能。这些数据库可以处理常规CPU驱动的数据库根本无法处理的数据集，从而使数据处理，分析和实时大数据达到新的水平。

GPU数据库已定义

GPU数据库的概念非常简单：它使用GPU的并行性来执行大量的数据处理加速。 GPU非常适合加速SQL查询的处理，因为SQL对集合中的每一行执行相同的操作（通常是搜索）。

但是，您不只是将一堆Nvidia Tesla卡放在托管Oracle数据库的服务器中。从SQL JOIN操作开始，已经完全设计和编写了GPU数据库以执行并行处理。

JOIN建立数据库中多个表的列之间的关系，对于执行有意义的分析至关重要。多年前，在传统RDBMS系统上针对JOIN的传统设计方法是为单核CPU设计的，即使对于CPU（尤其是GPU），它们也无法很好地发挥作用。

除了JOIN之外，GPU数据库还具有相当大的支持水平，包括：

与流行的开源框架（如Hadoop，Kafka，HBase，Spark和Storm）的连接器。
ODBC和JDBC驱动程序，用于与现有的可视化和BI工具（如Tableau，Power BI和Spotfire）集成
与流行的编程语言（例如C ++，SQL，Java，Node.js和Python）绑定的API。

在哪里使用GPU数据库

在这方面，GPU数据库实际上无法与Oracle，SQL Server或DB2竞争。 GPU数据库面向的是做出数据分析决策，公司试图从大量数据中实时做出决策，但由于数据过多或视觉分析工具太慢而无法进行决策。

GPU数据库供应商并不认为自己可以替代Oracle或Teradata之类的OLTP数据库。 GPU数据库不是针对传统的RDBMS工作负载，而是针对OLAP / OLTP世界和大数据，这些数据集非常庞大且需要实时。 GPU数据库不是在数小时或一夜之间运行的批处理过程，而是可以实时或每小时显示数据的地方。

GPU数据库应该可以解决NoSQL试图解决的许多问题，但是可以让您使用现有的结构化查询工具。使用NoSQL意味着重写所有SQL工具，但是GPU数据库使用现有SQL工具。

“我们意识到人们已经意识到他们可以构建多维系统，并可以从多个场景中获取数据并进行组合，”使用GPU数据库SQream的IT咨询公司Datatrend Technologies的新兴技术解决方案架构师Steve Worthington说。 “医疗公司希望从多个系统中获取[数据]并跨数据库进行分析，因为以前，他们无法进行交叉引用，也无法加入数据库。”

他还列举了金融机构进行欺诈和风险分析的过程，这些机构现在可能只做信用卡检查，但想对多个帐户进行检查。借助GPU的强大功能，他们可以立即交叉引用所有这些信息源。

对于位置服务提供商Skyhook的地理空间数据副总裁Rich Sutton而言，使用OmniSci GPU数据库给他的地理数据集可视化效果比基于CPU的数据库要大得多。他说：“我可以将10亿行加载到OmniSci中，而几乎没有延迟，而不必查看传统CPU空间中的10,000行数据集。” “它有多个数量级，这对我来说有利于减少数据消耗，并大大减少了延迟。”

OmniSci的首席执行官Todd Mostak说，一位客户告诉他OmniSci的速度“降低了好奇心。他们问一些以前会坚持的问题。” 一位金融服务客户告诉他，在传统数据库上进行18小时的处理查询的时间降低到了亚秒级，而一家电信公司告诉他，耗时数小时的查询现在可以在不到一秒的时间内响应。

GPU数据库的另一个地方是实时大数据，而Hadoop则不足。 GPU数据库提供商SQream的首席执行官Ami Gal说，大数据的许多希望（发现驻留在数十PB的行数据中的所有机会）在Hadoop上没有实现，因为它太慢了。

“ Spark非常适合数据移动和转换，但是一旦您需要处理大量数据并移动它们，您就开始处理成千上万的[计算]节点，这对于处理大型数据集来说实在太繁琐了。但是，如果您可以使用10或15个节点来执行此操作，那将效率更高。”他说。

沃辛顿说，基于GPU的服务器可以在一个机柜中运行，而这需要许多机柜的CPU驱动的多并行处理（MPP）节点。 “我们可以用六个节点替换每个MPP节点机架，每个节点中有2至4个GPU。这样一来，我们可以用不到一百万美元的投资来代替一千万美元的投资。”他说。

GPU对Skyhook也很重要，后者可以对大型地理数据集进行可视化。 “如果您在一分钟内有数百万次在现场和ping位置，那么您每天要谈论20亿条数据。这在传统数据库中是不可能的。只是不可能。因此，[a] GPU [数据库]使您可以使用这些数据。” Sutton说。

在采用OmniSci之前，Skyhook将不得不“金字塔化”数据，仅将其中的一部分用于可视化。萨顿说，现在，它可以查看整个数据图。 “我从未见过其他可行的方法来使数据成型以适应我的使用方式。”

GPU数据库：可用功能

GPU数据库完全是一种新兴现象，诸如Brytlyt ， SQream Technologies ， OmniSci ， Kinetica ， PG-Strom和Blazegraph之类的公司都是如此。

它们的工作方式略有不同。例如，OmniSci进行数据可视化，而SQream使用连接器连接到Tableau等可视化工具，因此需要分别评估每个工具，以确定最适合您的需求。

除了IBM之外，RDBMS中的知名人士尚未加入，IBM确实支持DB2 Blu（用于分析工作负载的DB2的特殊版本）中的某些GPU处理。 Oracle和TeraData都表示他们正在与Nvidia合作，但目前还没有。 Microsoft在SQL Server上不支持GPU加速。 SQream的Gal表示，他听说所有RDBMS供应商都在努力为其产品添加某种GPU支持，但没有进一步的信息。