第8章 数据
输入垃圾,输出垃圾:如果使用的输入变量质量不好,得到的结果也不会好。
数据的重要性
通常来说,模型的很多细节都是由所使用的输入变量的特征决定的。
准确信息输入正确模型的速度越快,所能得到的结果就会越好(至少在你计划得到一个好的收益时)
数据的类型
价格数据(price data):价格,股票的交易量、每笔交易的时间及规模等都属于价格信
基本面数据(fundamental data):除了价格数据之外的所有数据
这些数据有助于决定金融产品未来的价格或描述金融产品目前的状况
常见的基本面数据:财务健康状况(financial health)、财务表现(financial performance)、财务价值(financial worth)和情绪(sentiment)
聪明的研究人员总是在不断地寻找未被其他市场参与者使用的创新性的数据来源
数据的来源
交易所:价格、交易量、时间戳、持仓量、空头持仓量、订单簿数据。
监管机构:各个公司的财务报表、个股的大股东持股情况以及内部买卖活动。
政府:宏观经济数据,如失业率、通货膨胀及GDP数据。
公司:财务报告及其他公告(如红利的变化等)。
新闻机构:新闻报道。·数据专营供应商(或数据加工者):可能有用的一些生产数据。如经纪公司经常发布关于上市公司的报告,一些公司追踪并发布基金的现金流数据。
第三方数据供应商(tertiary data vendors),整合数据使宽客更容易使用数据而获利
数据整理
缺失值:
建立允许数据出现缺失的系统,
最近已知价格填充
错误观测值:小数点错误(跨系统单位)
异常值过滤
公司行为:配股
错误的时间戳:对接收到数据的时间戳和存储数据时的内部时间进行比对,以确保时间戳的正确性
前视偏差:财报,前复权,静态股票池
记录数据时间。
人工滞后项,该指标的敏感度得以延误,足以克服前视偏差。
不同交易市场收盘时间各不相同造成的。
数据储存
文件
平面文件:这种两维的数据库和普通的表格很类似
指针平面文件:指针为电脑建立了一张虚拟的表格(cheat sheet),提供了一种比顺序搜索更加智能化的算法对大数据集进行搜索。
关系数据库:允许数据集中出现更加复杂的关系
数据立方体:数据立方体强调关系数据库的一致性,把所有金融产品所有属性的取值都放到一个三维数据表中
小结