4.pandas加载数据
数据源多种多样。有的在数据库里面,有的在csv文件,有的是网页爬取的,有的是在线api。数据源的多样性,也带来处理的多样性,增加了学习复杂程度。
有没有一种方式来加载多样数据。pandas就是很便捷的方式,先用panda读取数据形成panda dataframe格式,在加载到回测引擎中。
而且很多数据网站的数据本身就是pandas dataframe格式。例如前面提到的akshare,tushare.
有了pandas dataframe 之后,然后通过PandasDate或者PandasDirectData类来加载数据。PandaDirectData类是后面才有的,读取速度比PandasDate快了机会一倍。因此建议用PandasDirectData。
4.1使用事项
注意:
pandas读取数据时,建议总是将日期或者日期时间作为列索引。(日期字段要转为日期格式)
PandasDirectDate字段参数:
- datetime 默认值None。datetime=None表示datetime列对应者列索引。否则设置datetime等于列名或者列号。建议用pandas读取时,将datetime设置为列索引。
- 用pandas读取datatime列,要设置时间格式
- 字段列数参数更加严格。例如如果没有openinterest,则openinterest=-1必写。