tushare赋能大数据金融初探---数据采集篇

最新推荐文章于 2024-09-14 22:07:12 发布

BENZENA_9_10

最新推荐文章于 2024-09-14 22:07:12 发布

阅读量732

点赞数

文章标签：大数据金融

本文链接：https://blog.csdn.net/qq_46346419/article/details/132156408

版权

  大数据在不断变革着我们的生活。通过大数据分析，我们可以精准地拦截诈骗、获取更符合个人需求的信息和服务、大幅地提高工作效率······我作为数据时代的受益者，充分地感受到了数据的魅力，也想利用大数据有一番作为和发现。但是大数据大多掌握在政府和大型企业手中，且很多数据专业性强，对于初学者并不太友好。于
  是我就选择了一个公开于全部民众且符合“4V”（更新速度快、规模庞大、种类繁多、变化频繁、价值巨大价值密度低）特性的数据——A股股票市场数据。结合对于A股市场的大量数据进行分析计算和我个人对于经济金融领域的了解，我完全通过个人力量，写出了一个可以预测、监控沪深主板股票的主力机构（庄家）炒作行为的Python程序，虽然期间经历了几次挫折和失败，但是我不断地调整对数据的清洗过滤方式和计算参数，最终取得了较好的成效：

  有至少六成的几率，我可以通过提前运行程序，准确预测某个特定的股票的庄家短期炒作股价行为。经历了多次实盘操作（在我的程序指导下进行股票买入），我的超短线（7天以内）平均收益可以达到7%左右。

1.数据采集
沪深主板股票共有3000多支，每个交易日都会有大量的实时数据更新，其种类不可不谓千奇百怪，暂且抛去RSI、PSY、KDJ、各类移动均线等技术指标不谈，就只是最基础的成交量、成交额、成交时间、股价分时波动等数据，就已经足够让我头疼。所以在选择数据的时候，我只选择了最不会骗人的数据——成交额。
初步有两种思路：
（1）通过Python构建网络爬虫财经门户网站上的最新数据，这些数据有很好的时效性和原生性（因为不经过其他平台的间接调用计算）。
（2）通过量化分析网站调取结构化数据，如tushare、聚宽量化平台等，这些数据很方便调用和索引，但是更新速度慢，而且数据结构类型、数据接口调用速度容易受平台的限制。
对于网络爬虫的方案，我做过尝试，但是爬取得到的数据结构性实在太差，不利于我进行分类存储和索引。最终，我选择第二种。我在每天休市之后，通过Python控制tushare平台(https://tushare.pro)提供的金融数据API来获取dataframe结构的数据进行分析。在最初的版本中，我走进过小小的误区，而这一误区正是我对“云计算”这一概念理解的不够透彻才进入的。当时我一味地认为：在我的电脑上不存储任何数据信息，尤其是数据量如此大的股市信息，这是很方便的行为——我不用维护、管理复杂的数据文件，只需要在进行计算的时候简单地进行数据调用就好，这不正是大数据对于云计算技术的需要吗？大数据的很多应用场景中，不正是用户随时随地地获取计算资源和计算能力吗？但实际上，我确实有更好的选择。对于特别庞大而且处理方向并不明确的数据集，我们需要云端计算，但是实际上在做个人层面的大数据处理的时候，更多的只是利用了云端存储，而对云端的计算力是没有要求的。以我的程序规模，也确确实实没有调用多台主机进行分布式计算的需要。所以，在我的数据处理方向和思路明确（针对成交量做计算）的情况下，将数据接口调用一次，存储在主机或者自己的数据库中，每次计算的时候直接调取主机数据而不是云端数据，计算速度果然得到的很大的提升。