Datawhale&Git-Model:假设检验2-多元数值向量的检验

本文分析了东、中、西部城市企业在总资产贡献率等经济指标上的差异,采用Hotelling T2检验和MANOVA进行检验。发现流动资产周转次数对均值向量差异影响显著,但通过剔除该变量后的多元方差分析,无法证明其是最大差异原因。
摘要由CSDN通过智能技术生成

作业

为研究东、中、西部各省市规模以上的企业发展状况,我们收集了各城市企业的主要经济指标,包括:总资产贡献率、资产负债率、流动资产周转次数、工业成本费用利润率、产品销售率。我们用变量“类别”定义了各类城市,其中1为东部城市;2为中部城市;3为西部城市。数据文件为homework2.xlsx。假设显著性水平为 α \alpha α,问:

  1. 对三个类别的城市进行均值向量间的两两比较,查看结果

  2. 对三个类别的城市同时进行均值向量间的比较,查看结果

  3. 承接问题2,你认为哪些变量导致了三个类别城市均值向量的差异?说出你的理由。

# 加载必要的包
import numpy as np
import pandas as pd
from scipy import stats
from IPython.display import display
# 加载数据表
data = pd.read_excel('./data/homework2.xlsx')

# 预处理数据表
data.drop(columns='地区',inplace=True)

CityDict = {
   'T': '总资产贡献率', # Total Asset Contribution Rate
            'A': '资产负债率', # Assets And Liabilities
            'C': '流动资产周转次数', # Current Asset Turnover
            'I': '工业成本费用利润率', # Industrial CostExpense Profit Margin
            'P': '产品销售率' # Product Sales Rate
            }

columns = ['category', 'T', 'A', 'C', 'I', 'P']

data.columns = columns

问题一

对三个类别的城市进行均值向量间的两两比较,查看结果

判断:由于样本的城市 类别 不同,可以认为样本间相互独立,属于 两组样本之间的均值向量相等性检验(组别间独立)问题
检验方法为:双样本 Hotelling T2检验

def multi_unparied_data(group1:pd.DataFrame,group2:pd.DataFrame,confidence=0.05):
    # 计算检验统计量
    n1=len(group1)
    n2=len(group2)
    p=np.shape(group1)[1] 
    mean1=np.mean(group1, axis=0).values.T
    mean2=np.mean(group2, axis=0).values.T
    # 协方差矩阵
  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.小林

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值