Qlib从csv, pickle 加载数据进data_loader

weixin_40248634

已于 2023-03-27 13:10:24 修改

阅读量506

点赞数

分类专栏：教程量化文章标签：机器学习数据挖掘 python

于 2023-03-06 10:20:41 首次发布

本文链接：https://blog.csdn.net/weixin_40248634/article/details/129355977

版权

教程同时被 2 个专栏收录

60 篇文章 3 订阅

订阅专栏

量化

7 篇文章 1 订阅

订阅专栏

QlibDataLoader用于加载已经转换为qlib格式的数据。
如果直接从外部文件中读取数据，可以使用StaticDataLoader。

pkl


from qlib.data.dataset.loader import QlibDataLoader
# 准备pickle数据文件
qdl = QlibDataLoader(config=(['$open', '$high', '$low', '$close'],['open', 'high', 'low', 'close']))
df = qdl.load(instruments='sh000300', start_time='20210101', end_time='20211231') # 可以通过freq参数设置周期，默认freq='day'
df.to_pickle('./sh000300.pkl')
 
# 使用StaticDataLoader导入数据
from qlib.data.dataset.loader import StaticDataLoader
 
# 实例化StaticDataLoader，主要是config函数，这里直接传入数据文件的路径
sdl_pkl = StaticDataLoader(config='./sh000300.pkl')

csv

当config是字典格式时{‘feature_group’: ‘path’}可以支持csv\pickle\h5三种文件格式，（不知道作者出于什么考虑）。我们可以选择修改源码，或者直接使用dict格式的config参数，如下：



sdl_csv = StaticDataLoader(config={'feature': './sh000300.csv'})
sdl_csv.load()['feature'] # 默认返回全部数据

有了data_loader 之后可用用来设计 DataHandlerLP, 而后用于DatasetH

from qlib.data.dataset.processor import RobustZScoreNorm, Fillna, DropnaLabel, CSRankNorm
from qlib.data.dataset.loader import QlibDataLoader
from qlib.data.dataset import DatasetH
from qlib.data.dataset.handler import DataHandlerLP

# 实例化Data Loader
market = 'sh000300' # 沪深300股票池代码，在instruments文件夹下有对应的sh000300.txt
close_ma = ['EMA($close, 10)', 'EMA($close, 30)'] # EMA($close, 10)表示计算close的10日指数加权均线
ma_names = ['EMA10', 'EMA30']
ret = ["Ref($close, -1)/$close-1"] # 下一日收益率, Ref($close, -1)表示下一日收盘价
ret_name = ['next_ret']
data_loader= QlibDataLoader(config={'feature':(close_ma, ma_names), 'label': (ret, ret_name)}) 
 
# 实例化Data Handler
shared_processors = [DropnaProcessor()]
learn_processors = [CSZScoreNorm()]
infer_processors = [ZScoreNorm(fit_start_time='20190101', fit_end_time='20211231')]
 
dh_pr_test = DataHandlerLP(instruments='sh000300', 
                           start_time='20190101', 
                           end_time='20211231',
                           process_type=DataHandlerLP.PTYPE_I, 
                           learn_processors=learn_processors,
                           shared_processors=shared_processors,
                           infer_processors=infer_processors,
                           data_loader=data_loader)
 
ds = DatasetH(dh_pr_test, segments={"train": ('20190101', '20201231'), "test": ('20210101', '20211231')})