作业
为研究东、中、西部各省市规模以上的企业发展状况,我们收集了各城市企业的主要经济指标,包括:总资产贡献率、资产负债率、流动资产周转次数、工业成本费用利润率、产品销售率。我们用变量“类别”定义了各类城市,其中1为东部城市;2为中部城市;3为西部城市。数据文件为homework2.xlsx。假设显著性水平为 α \alpha α,问:
-
对三个类别的城市进行均值向量间的两两比较,查看结果
-
对三个类别的城市同时进行均值向量间的比较,查看结果
-
承接问题2,你认为哪些变量导致了三个类别城市均值向量的差异?说出你的理由。
# 加载必要的包
import numpy as np
import pandas as pd
from scipy import stats
from IPython.display import display
# 加载数据表
data = pd.read_excel('./data/homework2.xlsx')
# 预处理数据表
data.drop(columns='地区',inplace=True)
CityDict = {
'T': '总资产贡献率', # Total Asset Contribution Rate
'A': '资产负债率', # Assets And Liabilities
'C': '流动资产周转次数', # Current Asset Turnover
'I': '工业成本费用利润率', # Industrial CostExpense Profit Margin
'P': '产品销售率' # Product Sales Rate
}
columns = ['category', 'T', 'A', 'C', 'I', 'P']
data.columns = columns
问题一
对三个类别的城市进行均值向量间的两两比较,查看结果
判断:由于样本的城市 类别 不同,可以认为样本间相互独立,属于 两组样本之间的均值向量相等性检验(组别间独立)问题
检验方法为:双样本 Hotelling T2检验
def multi_unparied_data(group1:pd.DataFrame,group2:pd.DataFrame,confidence=0.05):
# 计算检验统计量
n1=len(group1)
n2=len(group2)
p=np.shape(group1)[1]
mean1=np.mean(group1, axis=0).values.T
mean2=np.mean(group2, axis=0).values.T
# 协方差矩阵