时序数据获取 | Python实现时间序列数据集获取
基本介绍
来自真实世界场景的数据集对于构建和测试机器学习模型非常重要。如果想要一些时间序列数据来简单试验算法和评估模型但本地却没有测试数据,这种情况下就需要考虑如何拿到人工生成的或者真实的时序数据?之前都是通过接口自己来解析数据或者人工生成一些时序数据来测试,缺点是比较麻烦或者数据质量不高而且徒然增加自身工作量!作为调包侠这篇文章推荐一种 Python 数据获取库 —— 「pandas_datareader」。
工具介绍
Pandas-datareader 是基于 Python 的专门从一系列的公开在线数据库获取数据的工具库,可以实时地从网络中提取想要的数据并将其组装成一个 Pandas DataFrame。该接口在 urllib3 库基础上实现了以客户端身份访问在线数据库的各类金融财经股票数据,包括从Yahoo Finance 获取金融市场数据,从世界银行获取全球发展数据,从圣路易斯联邦储备银行获取经济数据等。由于网页数据源的限制,pandas_datareader 只支持从有限数量的数据源读取数据,这些数据源大多与金融和经济时间序列相关,支持的输入源如下:
- AlphaVantage</