目的
按照马科维茨的均值方差理论,构建股票的可行集,得到有效前沿,并根据夏普比率获得有效前沿上的最优投资组合,并按照一定的无风险资产配置进行投资,使用测试集检验该种方法的有效程度。
数据来源
1.使用tushare的python数据包。
2.以’300458’, ‘000948’, ‘300327’,‘300735’, '603496’五只股票作为测试。
3.选择2018.1.1-2018.12.31的股票作为训练集,2019.1.1-2019.12.31的股票作为测试集。
理论依据
1.收益的度量:使用日收益率作为证券收益率的随机变量,第t期的日收益率计算公式为:
其中为Pt第t期的收盘价,Pt-1为第t-1期的收盘价。
第i种证券的平均收益率表示为:
此处使用算术平均的方法求得平均收益率,其中蕴涵了一个假设:过去的每一期收益率发生的概率是相等的。(在无法得知过去收益率分布的情况下可据此近似计算,或采用几何平均的计算方法)
2.风险的度量:使用证券日收益率的波动程度表示证券的风险,即证券日收益率的标准差,第i种证券的标准差计算公式为:
3.约束条件:构建投资组合的可行集应该满足一下三个约束条件:
式(1)表示投资组合的收益率;
式(2)表示投资组合的风险,表示第种证券和第种证券的协方差;
式(3)表示不允许卖空的情况下,所有证券的持有比例加起来为1.
过程
1.两只股票的情形
使用’300735’,和’603496’两只股票构建投资组合,绘制组合的“收益-风险“图形如下:
图1
2.五只股票的情形
使用’300458’,‘000948’, ‘300327’, ‘300735’, '603496’五只股票构建投资组合,绘制其可行集如下:
图2
对比图1和图2可看出,当投资组合中证券数量增多时,收益率不仅没有下降,风险还随之减少了。
根据马科维茨的理论,我们可以选取的投资组合位于有效前沿上。为了进一步筛选有效前沿上的投资组合,我们采用夏普比率进行筛选,取有效前沿上的夏普比率最高的投资组合为最佳投资组合。夏普比率计算公式如下所示:
其中为投资组合的收益率,无风险资产的收益率,我们假设不持有无风险资产,则夏普比率变为:
由夏普比率可绘制资本市场线(CML)如图2红线所示,红点处即为夏普比率最高的投资组合
#股票的相关系数、收益率的均值和方差
import tushare as ts
import pandas as pd
import math
def get_yield_rate(code, Start, End): #获取股票的单期收益率
df = ts.get_hist_data(code, start=Start, end=End) #从接口获取股票数据
close = df['close'] #收盘价
lagclose = close.shift(-1) #让收盘价滞后-1期
yield_rate = (close-lagclose)/lagclose #计算单期收益率
yield_rate.name = 'yield_rate' #给series设置名字
yield_rate = pd.DataFrame(yield_rate) #将series变为DataFrame
yield_rate = yield_rate.fillna(method='backfill', axis=0) #向上填充列
yield_rate = yield_rate.fillna(method='ffill', axis=0) #向下填充列
return yield_rate
def EX(yield_rate): #计算收益率的均值
result = 0
for i in yield_rate.index:
result = result + yield_rate.loc[i, 'yield_rate']
mean_value = result/len(yield_rate)
return mean_value
def X_EX(yield_rate): #计算X-EX
mean_value = EX(yield_rate)
yield_rate['mean_value'] = mean_value
result = yield_rate['yield_rate'] - yield_rate['mean_value']
return result
def CovXY(yield_rate1, yield_rate2): #计算Cov(X,Y)
x_Ex = X_EX(yield_rate1)
y_Ey = X_EX(yield_rate2)
result = x_Ex * y_Ey
result.name = '(X-EX)(Y-EY)'
result = pd.DataFrame(result)
mean = 0
for i in result.index:
mean = mean + result.loc[i, '(X-EX)(Y-EY)']
Cov = mean/len(yield_rate1)
return Cov
def DX(yield_rate): #计算方差
x_Ex = X_EX(yield_rate)
x_Ex2 = x_Ex * x_Ex
x_Ex2.name = '(X-EX)^2'
x_Ex2 = pd.DataFrame(x_Ex2)
result = 0
for i in x_Ex2.index:
result = result + x_Ex2.loc[i, '(X-EX)^2']
Dx = result/len(yield_rate)
return Dx
def ruo(code1, code2, Start, End):
yield_rate1 = get_yield_rate(code1, Start, End)
yield_rate2 = get_yield_rate(code2, Start, End)
Cov = CovXY(yield_rate1, yield_rate2)
Dx = DX(yield_rate1)
Dy = DX(yield_rate2)
R = Cov/((math.sqrt(Dx))*math.sqrt(Dy))
return R
def get_EX(code, Start, End): #返回均值
yield_rate = get_yield_rate(code, Start, End)
Ex = EX(yield_rate)
return Ex
def get_DX(