kdb+/q与大数据和金融服务业

本文是ODBMS.ORG(www.odbms.org)网站编辑 Roberto V. Zicari对Kx公司首席战略家Simon Garland的一篇访谈,主题是关于大数据和金融服务业。本文发表于2015年,原文链接:http://www.odbms.org/blog/2015/06/big-data-and-the-financial-services-industry-interview-with-simon-garland/

Q1.金融服务行业中,常见的数据类型和数据量是多少?
SimonGarland:我们看到最多的数据类型是来自纽约证券交易所、暗池交易和其他交易平台的市场数据。这些数据可能包含数十亿的交易记录和证券报价,精确度高达纳秒,每天可以转换成数TB的数据。
数据通过数据源处理器作为流数据输入。它全天存储在内存中,并在一天结束时追加到磁盘历史数据库。算法交易决策以毫秒为级别使用这些数据。利用驻留在内存中的日内数据和驻留在磁盘上的历史数据进行分析,实时评估相关风险。

Q2.高性能金融交易和风险管理应用最困难的数据管理要求是什么?
SimonGarland:为了实现更快的交易速度,华尔街已经进行了长达数十年的军备竞赛。尤其是全球金融机构,在高性能软件产品、IT人员和基础设施等方面投入巨资,以保持竞争力。交易者在追求精确性、稳定性和安全性的同时,还希望在多达数TB的历史数据集上以闪电般的速度运行算法。
传统数据库无法实现上述要求。一般认为,列向存储数据库比常规RDBMS快几个数量级。经过时间序列优化的列式数据库,非常适合追求高性能和灵活性的华尔街。

Q3.为什么这对企业很重要?
SimonGarland:性能上的数量级改进将为“what-if”分析和可视化开辟新的可能性,将加快他们的创新步伐,提高对实时风险的意识以及对客户的响应速度。
物联网对那些可以从智能电表和智能电网等设备中收集数字化时间序列数据,并对这些数据加以利用的企业来说尤其重要。事实上,我认为这只是未来几年我们必须处理的数据量的开始。我们将能够把这些信息与企业数十年来一直在收集的有价值的数据结合起来。

Q4.大数据对许多企业的承诺之一是能够有效地使用流数据和多年来积累的大量历史数据,包括企业已经存储但从未有能力使用的数据。这里的主要挑战和机遇是什么?
SimonGarland:对于试图将一个流数据库、一个不同厂商的内存数据库和另一个厂商的历史数据库整合到一个系统的人来说,这似乎是一个挑战。他们将所有这些应用程序中的数据提取到另一个编程环境中。这种方法无法提供性能,长期看,脆弱且无法维护。
这里的机会是建立一个全栈数据库平台,例如kdb+,它是健壮的,易于扩展的和易于维护的。

Q5.在大规模的实时分析中组合和处理流、内存和历史数据有多困难?
SimonGarland:这是一个重要的问题。kdb+从一开始就是为流数据,内存数据和历史数据而设计的。它从一开始就设计为支持多核和多进程功能,这对于在当前硬件上并行处理大量历史数据至关重要。
我们已经这样做了数十年,甚至在多核机器还没有出现之前就已经这样做了。这就是为什么华尔街是我们技术早期使用者的原因。

Q6. q编程语言vs SQL:您能否解释一下主要区别?包括各自的优缺点。
SimonGarland:q编程语言内置在数据库系统kdb+中。它是一种数组编程语言,它支持向量和列式存储数据库的概念,而不是传统SQL支持的行和记录的概念。
主要区别在于,传统的SQL没有内置的顺序概念,而q编程语言有。q语言包含顺序的概念,这在处理时间序列数据时,非常有意义。
q直观,语法非常简洁,从而提高了生产率,减少了维护并缩短了周转时间。

Q7.你能给我们举一些成功的大数据实时分析项目的例子吗?
SimonGarland:公用事业公司正使用kdb+对数据表进行毫秒级查询,这些数据表具有从数百万个智能电表中捕获的数千亿个数据点。这些数据的分析可用于平衡发电量,管理停电以及计费和维护。
拥有大量流量的互联网公司正在使用kdb+分析Googlebot的行为,以了解如何修改页面以提高排名。他们告诉我们,他们有1亿个页面,每天会收到数亿次点击,传统数据库根本无法工作。
在像制药业这样的行业,决策是基于一天、一周或一个月前的数据,我们的客户和潜在客户说我们的列存储数据库使他们淘汰了他们的旧数据仓库软件。在相同的查询上,它速度要快很多倍。在超大型表格上进行复杂分析所需的时间实际上已从数小时减少到数秒。

Q8.在金融服务、能源和制药等不同垂直市场中,大数据集的使用方式是否有相似之处?
SimonGarland:相似之处是我们所有的客户都拥有结构化的时间序列数据。他们的数据问题的规模完全不同,他们的业务用例也是如此。在kdb+已成为一个行业标准的金融服务行业,需要不断提高实时分析水平。
在其他行业,例如制药,电信,石油、天然气和公用事业,则有不同的时间概念。这些行业经常使用较小的数据集,他们通常仍将其视为“大数据”。当数据在事件发生后的一天,一周或一个月内才搜集入库,并不像金融领域那样有实时决策的要求。为复杂的分析提供更快的查询及分析结果有助于所有行业开展创新,并对客户做出更即使的响应。

Q9.你还有什么要补充的吗?
SimonGarland:如果对我们的产品有兴趣,我们提供了免费的,32位版本的kdb+,可在我们的网站下载。【注:目前也提供64位kdb+下载】

——————
Simon Garland负责Kx的技术标准维护,他还负责管理Kx参与证券交易分析中心的工作,监督所有第三方基准测试。在2002年加入Kx之前,Simon在一家数据库搜索引擎公司工作。在此之前,他曾在瑞士信贷(Credit Suisse)从事风险管理工作。Simon在k和kdb+最初引入之时,就开发了使用kdb+/q的软件。Simon拥有伦敦大学的数学学位,目前在欧洲工作。

说明:本文经授权转载自微信公众号kdbcnbook。
kdbcn

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值