tushare赋能大数据金融初探---数据清洗和后续

本文链接：https://blog.csdn.net/qq_46346419/article/details/132156533

接上篇，从tushare接口（https://tushare.pro）获取结构化数据，进行后续操作。

2.数据清洗
我的程序处理数据的行为之一就是将沪深主板股票池中3000多支股票最近的成交额数据进行遍历式的计算，以从中找出设定最符合条件的个别股票。这就要求各个股票在时间序列上具有相同的索引和结构。但是很不幸，公司停牌重组、退市、上市是证券交易的家常便饭，而且不同股票出现上述“交易日不交易”状态的时间并不一样且几乎完全没有规律。这就为下一步的数据处理带来不便。对此，有进行数据清洗的需要。我最初计划采取以下两种路线：
（1）将停牌时期的成交额数据设置成0，直接代入计算。此方法简单粗暴有效，但是不能很好地顾及新上市和退市公司和有重大事故而长期停牌的公司的情况。
（2）修改遍历日期，先将有股票停牌的日期从数据计算列表中过滤掉，直接计算剩下的时间的日期。此方法破坏掉了操作的流水线特性，使得各个股票计算方法差异较大，而且互相的停牌日期会有影响。
考虑到新上市和退市公司和有重大事故而长期停牌的公司只占少数，所以选择方法（1）进行数据清洗。确实，数据清洗不是一项简单的工作。实际上，它几乎是整个大数据分析中最困难、耗时最长的部分，它要面对破坏计算结果的各种可能性，并且通过牺牲一定的计算精度把这些噪音全部过滤掉，这其中的操作难度很大——到底牺牲哪些维度的精度？保留哪些噪音？我们要将数据处理和挖掘的角度和数据清洗的角度相对应起来，这其实是在用下一个步骤逆推前一个步骤，而前一个步骤又会影响下一个步骤，这其中的互相平衡也是很考验数据分析人员的功力的。可以说，数据分析的结果是否可靠，很大程度上就是依赖于数据清洗这一步，甚至甚于数据挖掘，因为挖掘的方向不对是可以重新调整的，但是数据清洗中将一些宝贵的数据失误地过滤掉，那么之后再怎么努力也是枉费功力。我在采取上述路线（2）的时候就因为数据清洗的不合理而得出过很多错误的结果，还好最终拨乱反正。

3.4. 数据分析和数据可视化
数据分析——这个步骤的处理是我的监控程序核心灵魂所在。但是没必要在此过多赘述，因为这其间很大程度上运用到的是金融市场方面的知识，而不是什么新兴的深度学习之类的方法技术。我的运算过程包含求和、求差、求比率、求最大值、设置阈值、调整阈值等操作。通过这一系列的操作，我可以八九不离十地认定：这只股票的庄家最近要进行股价操纵（拉高出货），相较于之前长久的低迷，它的成交量和价格会在最近几天有一个不小的提升。在进行数据分析的过程中，我也曾遇到过一些困难，在一段时间内，由于我阈值设置的原因，总是有很多股票符合我设置的标准而被最终呈现，但是实际上根本不可能同时有如此多的增量资金进行炒作，于是我依据试验的结果不断倒逼反推我的数据分析过程和阈值设置方法，进行了多次调整，最终终于可以做到在3000多支中每日符合条件的只有五六支，这才是比较符合逻辑的结果。由此看来，大数据分析也不是一味地埋头进数据里，而应该和实际情况相联系，而且不轻易放弃自己的路线，勇于试错。由于将符合条件的结果直接写入本地TXT文件，数据可视化其实被简化和省略了，由于该数据分析过程时一个在进行实操前进行了充分的试验、衡量、分析改正，其指向性目的性很强，其功能性也很明显，没有太大的必要对数据进行可视化的再度分析。

在这里插入图片描述