tushare赋能大数据金融初探---数据采集篇

  大数据在不断变革着我们的生活。通过大数据分析,我们可以精准地拦截诈骗、获取更符合个人需求的信息和服务、大幅地提高工作效率······我作为数据时代的受益者,充分地感受到了数据的魅力,也想利用大数据有一番作为和发现。但是大数据大多掌握在政府和大型企业手中,且很多数据专业性强,对于初学者并不太友好。于
  是我就选择了一个公开于全部民众且符合“4V”(更新速度快、规模庞大、种类繁多、变化频繁、价值巨大价值密度低)特性的数据——A股股票市场数据。结合对于A股市场的大量数据进行分析计算和我个人对于经济金融领域的了解,我完全通过个人力量,写出了一个可以预测、监控沪深主板股票的主力机构(庄家)炒作行为的Python程序,虽然期间经历了几次挫折和失败,但是我不断地调整对数据的清洗过滤方式和计算参数,最终取得了较好的成效:

  有至少六成的几率,我可以通过提前运行程序,准确预测某个特定的股票的庄家短期炒作股价行为。经历了多次实盘操作(在我的程序指导下进行股票买入),我的超短线(7天以内)平均收益可以达到7%左右。

1.数据采集
沪深主板股票共有3000多支,每个交易日都会有大量的实时数据更新,其种类不可不谓千奇百怪,暂且抛去RSI、PSY、KDJ、各类移动均线等技术指标不谈,就只是最基础的成交量、成交额、成交时间、股价分时波动等数据,就已经足够让我头疼。所以在选择数据的时候,我只选择了最不会骗人的数据——成交额。
初步有两种思路:
(1)通过Python构建网络爬虫财经门户网站上的最新数据,这些数据有很好的时效性和原生性(因为不经过其他平台的间接调用计算)。
(2)通过量化分析网站调取结构化数据,如tushare、聚宽量化平台等,这些数据很方便调用和索引,但是更新速度慢,而且数据结构类型、数据接口调用速度容易受平台的限制。
对于网络爬虫的方案,我做过尝试,但是爬取得到的数据结构性实在太差,不利于我进行分类存储和索引。最终,我选择第二种。我在每天休市之后,通过Python控制tushare平台(https://tushare.pro)提供的金融数据API来获取dataframe结构的数据进行分析。在最初的版本中,我走进过小小的误区,而这一误区正是我对“云计算”这一概念理解的不够透彻才进入的。当时我一味地认为:在我的电脑上不存储任何数据信息,尤其是数据量如此大的股市信息,这是很方便的行为——我不用维护、管理复杂的数据文件,只需要在进行计算的时候简单地进行数据调用就好,这不正是大数据对于云计算技术的需要吗?大数据的很多应用场景中,不正是用户随时随地地获取计算资源和计算能力吗?但实际上,我确实有更好的选择。对于特别庞大而且处理方向并不明确的数据集,我们需要云端计算,但是实际上在做个人层面的大数据处理的时候,更多的只是利用了云端存储,而对云端的计算力是没有要求的。以我的程序规模,也确确实实没有调用多台主机进行分布式计算的需要。所以,在我的数据处理方向和思路明确(针对成交量做计算)的情况下,将数据接口调用一次,存储在主机或者自己的数据库中,每次计算的时候直接调取主机数据而不是云端数据,计算速度果然得到的很大的提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值