一、 量化投资的数据存储需求和挑战
量化投资是指通过数量化方式及计算机程序化发出买卖指令,以获取稳定收益为目的的交易方式。在海外的发展已有30多年的历史,其投资业绩稳定,市场规模和份额不断扩大、得到了越来越多投资者认可。从全球市场的参与主体来看,按照管理资产的规模,全球排名前四以及前六位中的五家资管机构,都是依靠计算机技术来开展投资决策,由量化及程序化交易所管理的资金规模在不断扩大。
量化投资里面首先是数据,数据是第一要位,尤其是高质量的数据,假如没有数据就无从做回测,没有好的数据就无法得到正确的结果。其次是经验,有了数据就可以写模型,完成一个有效的策略需要丰富的投资经验,这很关键。
1.1 金融数据量庞大
量化投资主要需要哪些数据呢?这里主要讲一些传统的数据分类,其实还有很多特色大数据。
第一是基础数据:没有基础数据很多的量化策略是没法写的。主要包括:证券及公司基本信息,行情数据,财务报表,公司行为,财务数据,市场行为,指数数据等。
二是宏观和行业数据主要包括:各类经济指标,国内生产总值,居民消费指数,特价指数,经济景气指数,财政与货币政策价格,工业品出厂价格指数等,行业包括有色煤炭,能源化工,房地产,汽车交运,电力,消费品等。
三是高频数据:股票的分笔高频,分时高频,各类分钟数据,股指期货高频,商品期货高频等。
四是衍生数据:这个数据体现了公司的投资和技术能力,很多需要自己去计算,但是小公司或者是小的机构没有这种研究能力,需要采购,比如很多有价格的技术因子,基本面因子,资金流向因子,分析师因子,风控数据等。
数据存储类型主要是有CSV,TXT,EXCEL,HDF file,DataBase;数据处理工具有很多例如Python、R语言、Matlab、SAS、Java等,但是目前Python在金融数据分析领域越来越越受到欢迎。
为了能够更好的为量化投资建模和模拟分析过程,就必须从各个来源抓取更加丰富的信息数据,作为量化分析的数据源。这些数据非常庞大,并且一直会处理持续增长的状态。这些基础数据在存储系统中的呈现方式为文件数据,并且需要有多个CPU服务器和GPU服务器共同处理和分析,所以还