转载:使用日期数据校验tick数据有效性

使用日期数据校验tick数据有效性
在分析数据过程中,数据有效性非常重要,所谓garbage in garbage out,数据正确性得不到保证,结果的可信度就要打折扣。聚宽提供了很多数据api方便调用,其中tick数据包含了低粒度(秒级)数据成交的快照,具有较大的微观数据分析价值,但tick数据量大,由于各种原因(服务器,网络等)导致数据出现问题的几率偏大,但通常日级的数据可信度较高,所以我们可以用日级数据来检验下tick数据的有效性。例如针对一个个股600769.XSHG,我们可以取到它的tick数据,通过get_tick函数

df_tick=jd.get_ticks(‘600769.XSHG’,start_dt=‘2018-07-02’,end_dt=‘2018-07-10’,count=None)
我们现在要检验这个tick数据的正确性,我们可以通过取日数据

df_day = jd.get_price(‘600769.XSHG’,start_date=‘2018-07-02’,end_date=‘2018-07-10’,fq=None)
然后将tick数据按日重采样

d1 = df_tick.price.resample(‘1D’).mean()
d1.dropna(inplace=True)
d2 = pd.concat([d1, df_day.close], join=‘inner’, axis=1)
d3 = d2[abs(d2.price / d2.close - 1) > 0.15].index.astype(str).tolist()
如果tick数据的平均价格和日数据的收盘价价差在15%以上,就认为tick数据有问题,另外还可使用成交量来验证数据

d1 = df_tick.volume.resample(‘1D’).sum()
d1.dropna(inplace=True)
d2 = pd.concat([d1, df_day.volume], join=‘inner’, axis=1)
d3 = d2[abs(d2.volume / d2.volume - 1) > 0.1].index.astype(str).tolist()
如果通过tick统计的成交量和日数据中的成交量有10%以上的差异,同样认为tick数据存在错误,通过这两种方式,可以大体的对tick数据初步验证,为后续模型的正确性做个预防。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值