[转载] 使用日期数据校验tick数据有效性

在分析数据过程中,数据有效性非常重要,所谓garbage in garbage out,数据正确性得不到保证,结果的可信度就要打折扣。聚宽提供了很多数据api方便调用,其中tick数据包含了低粒度(秒级)数据成交的快照,具有较大的微观数据分析价值,但tick数据量大,由于各种原因(服务器,网络等)导致数据出现问题的几率偏大,但通常日级的数据可信度较高,所以我们可以用日级数据来检验下tick数据的有效性。例如针对一个个股600769.XSHG,我们可以取到它的tick数据,通过get_tick函数

df_tick=jd.get_ticks('600769.XSHG',start_dt='2018-07-02',end_dt='2018-07-10',count=None)

我们现在要检验这个tick数据的正确性,我们可以通过取日数据 

df_day = jd.get_price('600769.XSHG',start_date='2018-07-02',end_date='2018-07-10',fq=None)

然后将tick数据按日重采样 

d1 = df_tick.price.resample('1D').mean()
d1.dropna(inplace=True)
d2 = pd.concat([d1, df_day.close], join='inner', axis=1)
d3 = d2[abs(d2.price / d2.close - 1) > 0.15].index.astype(str).tolist()

 如果tick数据的平均价格和日数据的收盘价价差在15%以上,就认为tick数据有问题,另外还可使用成交量来验证数据

d1 = df_tick.volume.resample('1D').sum()
d1.dropna(inplace=True)
d2 = pd.concat([d1, df_day.volume], join='inner', axis=1)
d3 = d2[abs(d2.volume / d2.volume - 1) > 0.1].index.astype(str).tolist()

 如果通过tick统计的成交量和日数据中的成交量有10%以上的差异,同样认为tick数据存在错误,通过这两种方式,可以大体的对tick数据初步验证,为后续模型的正确性做个预防。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值