马科维茨投资组合有效集、最优投资组合

最新推荐文章于 2022-08-06 13:48:00 发布

彭海恩

最新推荐文章于 2022-08-06 13:48:00 发布

阅读量1.4w

点赞数 13

分类专栏：投资组合文章标签： python

本文链接：https://blog.csdn.net/pinstein/article/details/103699496

版权

本文依据马科维茨均值方差理论，通过Python利用tushare获取股票数据，构建可行集及有效前沿。通过比较不同数量股票的投资组合，展示了增加证券数量能降低风险且不牺牲收益。采用夏普比率找到有效前沿上的最优投资组合，并通过无风险资产配置进行投资策略验证。

摘要由CSDN通过智能技术生成

目的

按照马科维茨的均值方差理论，构建股票的可行集，得到有效前沿，并根据夏普比率获得有效前沿上的最优投资组合，并按照一定的无风险资产配置进行投资，使用测试集检验该种方法的有效程度。

数据来源

1.使用tushare的python数据包。
2.以’300458’, ‘000948’, ‘300327’,‘300735’, '603496’五只股票作为测试。
3.选择2018.1.1-2018.12.31的股票作为训练集，2019.1.1-2019.12.31的股票作为测试集。

理论依据

1.收益的度量：使用日收益率作为证券收益率的随机变量，第t期的日收益率计算公式为：
在这里插入图片描述

其中为Pt第t期的收盘价，Pt-1为第t-1期的收盘价。
第i种证券的平均收益率表示为：
在这里插入图片描述

此处使用算术平均的方法求得平均收益率，其中蕴涵了一个假设：过去的每一期收益率发生的概率是相等的。（在无法得知过去收益率分布的情况下可据此近似计算，或采用几何平均的计算方法）

2.风险的度量：使用证券日收益率的波动程度表示证券的风险，即证券日收益率的标准差，第i种证券的标准差计算公式为：
在这里插入图片描述

3.约束条件：构建投资组合的可行集应该满足一下三个约束条件：
在这里插入图片描述

式（1）表示投资组合的收益率；

式（2）表示投资组合的风险，表示第种证券和第种证券的协方差；

式（3）表示不允许卖空的情况下，所有证券的持有比例加起来为1.

过程

1.两只股票的情形

使用’300735’,和’603496’两只股票构建投资组合，绘制组合的“收益-风险“图形如下：

图1

2.五只股票的情形
使用’300458’,‘000948’, ‘300327’, ‘300735’, '603496’五只股票构建投资组合，绘制其可行集如下：

图2
对比图1和图2可看出，当投资组合中证券数量增多时，收益率不仅没有下降，风险还随之减少了。

根据马科维茨的理论，我们可以选取的投资组合位于有效前沿上。为了进一步筛选有效前沿上的投资组合，我们采用夏普比率进行筛选，取有效前沿上的夏普比率最高的投资组合为最佳投资组合。夏普比率计算公式如下所示：

在这里插入图片描述

其中为投资组合的收益率，无风险资产的收益率，我们假设不持有无风险资产，则夏普比率变为：
在这里插入图片描述

由夏普比率可绘制资本市场线（CML）如图2红线所示，红点处即为夏普比率最高的投资组合

#股票的相关系数、收益率的均值和方差

import tushare as ts
import pandas as pd
import math

def get_yield_rate(code, Start, End):   #获取股票的单期收益率
    df = ts.get_hist_data(code, start=Start, end=End) #从接口获取股票数据
    close = df['close'] #收盘价
    lagclose = close.shift(-1)  #让收盘价滞后-1期
    yield_rate = (close-lagclose)/lagclose  #计算单期收益率
    yield_rate.name = 'yield_rate'  #给series设置名字
    yield_rate = pd.DataFrame(yield_rate)   #将series变为DataFrame
    yield_rate = yield_rate.fillna(method='backfill', axis=0)  #向上填充列
    yield_rate = yield_rate.fillna(method='ffill', axis=0)     #向下填充列
    return yield_rate

def EX(yield_rate): #计算收益率的均值
    result = 0
    for i in yield_rate.index:
        result = result + yield_rate.loc[i, 'yield_rate']
    mean_value = result/len(yield_rate)
    return mean_value
def X_EX(yield_rate):   #计算X-EX
    mean_value = EX(yield_rate)
    yield_rate['mean_value'] = mean_value
    result = yield_rate['yield_rate'] - yield_rate['mean_value']
    return result
def CovXY(yield_rate1, yield_rate2):    #计算Cov(X,Y)
    x_Ex = X_EX(yield_rate1)
    y_Ey = X_EX(yield_rate2)
    result = x_Ex * y_Ey
    result.name = '(X-EX)(Y-EY)'
    result = pd.DataFrame(result)
    mean = 0
    for i in result.index:
        mean = mean + result.loc[i, '(X-EX)(Y-EY)']
    Cov = mean/len(yield_rate1)
    return Cov
def DX(yield_rate): #计算方差
    x_Ex = X_EX(yield_rate)
    x_Ex2 = x_Ex * x_Ex
    x_Ex2.name = '(X-EX)^2'
    x_Ex2 = pd.DataFrame(x_Ex2)
    result = 0
    for i in x_Ex2.index:
        result = result + x_Ex2.loc[i, '(X-EX)^2']
    Dx = result/len(yield_rate)
    return Dx
def ruo(code1, code2, Start, End):
    yield_rate1 = get_yield_rate(code1, Start, End)
    yield_rate2 = get_yield_rate(code2, Start, End)
    Cov = CovXY(yield_rate1, yield_rate2)
    Dx = DX(yield_rate1)
    Dy = DX(yield_rate2)
    R = Cov/((math.sqrt(Dx))*math.sqrt(Dy))
    return R


def get_EX(code, Start, End):   #返回均值
    yield_rate = get_yield_rate(code, Start, End)
    Ex = EX(yield_rate)
    return Ex
def get_DX(