统计学第十五周 方差分析实践
-
题目
数据背景:有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试解决:
1、每个地区间的销售量是否相同?
2、不同月份的销售量是否相同?
3、不同时间与地区的销售量是否相同?
-
数据
-
问题1 每个地区间的销售量是否相同?
根 据 上 一 节 学 习 内 容 , 可 以 用 单 因 素 方 差 分 析 , 先 假 设 , 再 构 造 统 计 量 , 最 后 进 行 决 策 根据上一节学习内容,可以用单因素方差分析,先假设,再构造统计量,最后进行决策 根据上一节学习内容,可以用单因素方差分析,先假设,再构造统计量,最后进行决策( 1 ) 假 设 H 0 : μ a = μ b = μ c = μ d , 即 假 设 样 本 A , B , C , D 的 均 值 相 同 , 不 同 地 区 无 显 著 性 影 响 ; H 1 : μ a , μ b , μ c , μ d 不 全 相 等 , 即 样 本 A , B , C , D 均 值 不 全 相 等 , 有 显 著 性 影 响 。 (1)假设H_0: \mu_a=\mu_b=\mu_c=\mu_d ,即假设样本A,B,C,D的均值相同,不同地区无显著性影响;H_1: \mu_a,\mu_b,\mu_c,\mu_d不全相等,即样本A,B,C,D均值不全相等,有显著性影响。 (1)假设H0:μa=μb=μc=μd,即假设样本A,B,C,D的均值相同,不同地区无显著性影响;H1:μa,μb,μc,μd不全相等,即样本A,B,C,D均值不全相等,有显著性影响。
(2)构造统计量,因素为地区,水平为4,因变量为销售量,根据单因素销售量
总 体 均 值 为 : x ‾ ‾ = ∑ i = 1 k ∑ j = 1 r x i j n = 5631.75 总体均值为:\overline{\overline{x}} =\frac{\sum_{i=1}^{k}\sum_{j=1}^{r}x_{ij}}{n}=5631.75 总体均值为:x=n∑i=1k∑j=1rxij=5631.75#coding=utf-8 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 df = pd.read_excel(r'd:\excel\tj\销售数据.xlsx',sheet_name='Sheet1') print(df.head()) print(df.describe()) #统计数量、均值、标准差、上下四分位 print(df.mean().sum()/4) #输出对应的总体均值
计 算 各 水 平 的 均 值 x ‾ 1 = 5150.454545 , x ‾ 2 = 4329.909091 , x ‾ 3 = 7457.909091 , x ‾ 4 = 5588.727273 计算各水平的均值\overline{x}_1= 5150.454545 ,\overline{x}_2=4329.909091,\overline{x}_3=7457.909091,\overline{x}_4=5588.727273 计算各水平的均值x1=5150.454545,x2=4329.909091,x3=7457.909091,x4=5588.727273
总 平 方 和 s s t = ∑ i = 1 k ∑ j = 1 r ( x i j − x ‾ ‾ ) 2 = 95533231.1875 + 61867762.1875 + 86597368.1875 + 36583242.6875 总平方和sst=\sum_{i=1}^{k}\sum_{j=1}^{r}{(x_{ij}-\overline{\overline{x}})^2}=95533231.1875+61867762.1875+86597368.1875+36583242.6875 总平方和sst=i=1∑kj=1∑r(xij−x)2=95533231.1875+61867762.1875+86597368.1875+36583242.6875
组 间 平 方 和 S S A = ∑ i = 1 k n i ( x ‾ i − x ‾ ‾ ) 2 = 57894573.5196352 组间平方和SSA=\sum_{i=1}^{k}n_i(\overline{x}_i-\overline{\overline{x}})^2=57894573.5196352 组间平方和SSA=i=1∑kni(xi−x)2=57894573.5196352
组 内 平 方 和 S S E = 222687030.727273 组内平方和SSE=222687030.727273 组内平方和SSE=222687030.727273
MSA=SSA/(4-1)=19298191.17 , MSE =SSE/(N-K)=31812432.96,
检验统计量F =MSA/MSE=0.606624184 , 在给定显著性水平a=0.05,在F分布表中查找分子自由度df1=4-1=3,分母自由度df2=n-k=11-4=7,相应的临界值Fa(3,7)=4.347,F<Fa 则不拒绝原假设H0,即认为各地区对销售量影响不显著。
问题2. 不同月份销售量不同?
所有数据按照月份分组,这里2019年3月数据少4行,因此保留上面12行,作为分析的数据
(
1
)
假
设
H
0
:
各
月
的
均
值
相
等
,
即
各
个
月
份
对
销
售
量
无
显
著
影
响
;
H
1
:
各
个
月
份
均
值
不
完
全
相
同
,
即
不
同
月
份
对
销
售
量
有
显
著
影
响
。
(1)假设H_0: 各月的均值相等,即各个月份对销售量无显著影响;H_1:各个月份均值不完全相同,即不同月份对销售量有显著影响。
(1)假设H0:各月的均值相等,即各个月份对销售量无显著影响;H1:各个月份均值不完全相同,即不同月份对销售量有显著影响。
(2)构造和计算统计量
1 ) 计 算 总 体 均 值 x ‾ ‾ = ∑ i = 1 k ∑ j = 1 r x i j n = 5898.5 , 一 共 36 个 数 据 , 12 行 , 水 平 为 3 1)计算总体均值\overline{\overline{x}}=\frac{\sum_{i=1}^{k}\sum_{j=1}^{r}x_{ij}}{n}=5898.5,一共36个数据,12行,水平为3 1)计算总体均值x=n∑i=1k∑j=1rxij=5898.5,一共36个数据,12行,水平为3
2 ) 总 平 方 和 S S T = ∑ ∑ ( x i j − x ‾ ‾ ) 2 = 205887565 2)总平方和SST=\sum\sum(x_{ij}-\overline{\overline{x}})^2=205887565 2)总平方和SST=∑∑(xij−x)2=205887565
3 ) 组 间 平 方 和 S S A = ∑ i = 1 k n i ( x ‾ i − x ‾ ‾ ) 2 = 39687746 3)组间平方和SSA=\sum_{i=1}^{k}n_i(\overline{x}_i-\overline{\overline{x}})^2=39687746 3)组间平方和SSA=i=1∑kni(xi−x)2=39687746
4 ) 组 内 平 方 和 S S E = S S T − S S A = 205887565 − 39687746 = 166199819 4)组内平方和SSE=SST-SSA=205887565-39687746 =166199819 4)组内平方和SSE=SST−SSA=205887565−39687746=166199819
5)MSA=SSA/(3-1)=19843873
,MSE=SSE/(n-k)=SSE/(12-3)=18466646.56
6 ) F = M S A M S E = 1.074579131 6)F=\frac{MSA}{MSE}=1.074579131 6)F=MSEMSA=1.074579131
( 3 ) 决 策 分 析 , F < F a = F a ( 2 , 9 ) = 4.256 , 不 拒 绝 原 假 设 , 即 各 个 月 份 影 响 不 显 著 。 (3)决策分析,F<F_a=F_a(2,9)=4.256 ,不拒绝原假设,即各个月份影响不显著。 (3)决策分析,F<Fa=Fa(2,9)=4.256,不拒绝原假设,即各个月份影响不显著。
问题3. 不同时间与地区的销售量是否相同?
这里按照无交互作用的双因素方差分析方法(1)假设(2)构造统计量和计算(3)决策
( 1 ) 行 因 素 : H 0 : 假 设 日 期 对 销 售 量 无 显 著 影 响 ; H 1 : 日 期 对 销 售 量 有 显 著 影 响 (1)行因素:H_0: 假设日期对销售量无显著影响;H_1:日期对销售量有显著影响 (1)行因素:H0:假设日期对销售量无显著影响;H1:日期对销售量有显著影响
列 因 素 : H 0 : 假 设 地 区 对 销 售 量 无 显 著 影 响 ; H 1 : 地 区 对 销 售 量 有 显 著 影 响 列因素: H_0:假设地区对销售量无显著影响;H_1:地区对销售量有显著影响 列因素:H0:假设地区对销售量无显著影响;H1:地区对销售量有显著影响
(2)构造统计量并计算:
(3)从上表中可以看出Fr<Fa,Fc<Fa,分别从地区、日期都对销售量影响不显著。