完整代码:后期上传至github
数据集:资源库
问题一:投资者购买目标指数中的资产,如果购买全部,从理论上讲能够完美跟踪指数,但是当指数成分股较多时,购买所有资产的成本过于高昂,同时也需要很高的管理成本,在实际中一般不可行。
(1)在附件数据的分析和处理的过程中,请对缺损数据进行补全。
(2)投资者购买成分股时,过多过少都不太合理。对于附件的成分股数据,请您通过建立模型,给出合理选股方案和投资组合方案。
一、题目分析
1.第一小问,经分析各指标与成交量之间不存在线性回归关系,若使用回归分析可能会导致结果相差较大。而数据中又包含时间因素,因此采取时间序列模型进行预测。
2.第二小问,由于衡量如何进行合理选股和投资组合的标准是其收益性和风险性。本文引用Markowitz模型以及夏普比率模型从这两个角度进行合理建模分析。
(以下可视化分析均以股票abc001为例)
二、第一小问求解
工具:Excel
(一)建立模型
在本次分析中,由开盘、最高价、最低价、收盘与成交量之间散点图可知,各因子之间不存在线性关系;因此建立指数平滑曲线,取α=0.8时,指数平滑曲线重合度较高。
(二)预测结果
根据指数平滑公式推导, 2020/3/26号成交量预测值为:
三、第二小问求解
工具:Python
(一)股票收益及风险分析
> 股票收益率
股票收益率(stock yield),是指投资于股票所获得的收益总额与原始投资额的比率。股票得到了投资者的青睐,因为购买股票所带来的收益。
-
股票日收益率
股票日收益率计算公式如下:
其中p_t表示股票在t时刻的收盘价,p_(t-1)表示股票在t-1时刻的收盘价。 -
日收益率时间序列图
3. 日收益率箱型图
4. 累积日收益率
5. 模型分析
在股票风险性一定的情况下:
图2,图3可以看出,各股票的日均收益率大致为0,但abc003、abc006、abc007这三支股票波动较大。
图4中,我们需要在投资时尽量避免左侧尾巴上的异常值,因为他们代表了较大的亏损,而分布在右侧尾巴上的异常值通常是件好事,它代表较大的盈利。
股票风险性
6. 极差、四分位差、平均差、方差、标准差和离散系数
平均差:能全面准确的反应一组数据的离散状况,平均差越大,说明数据离散程度越大,反之,离散程度越小。
plot_distribution(Stock_acc, cols=2, width=20, height=50, hspace=0.45, wspace=0.5)
earn_rate_range=np.max(StockReturns)-np.min(StockReturns)
earn_rate_interquartile_range=StockReturns.quantile(0.75)-StockReturns.quantile(0.25)
earn_rate_var=