多元统计特征(1)

课堂笔记

集中度的度量——数学期望

  • 理论数学期望:
    E ( X ) = ∫ x f ( x ) E(X)=\int{xf(x)} E(X)=xf(x)
  • 实际:
    样本和 / 样本个数

散度的度量——方差、标准差

  • 理论:
    D ( X ) = E ( X − E ( X ) ) 2 D(X)=E(X-E(X))^2 D(X)=E(XE(X))2
  • 实际:样本
    σ 2 = Σ ( x i − x ˉ ) 2 n − 1 \sigma^2=\frac{\Sigma(x_i-\bar{x})^2}{n-1} σ2=n1Σ(xixˉ)2
    n-1 : 无偏估计 & 自由度
    n : 极大似然估计
    实际均可,由于“大”数据基本没有区别

相关性的度量——相关系数

  • 理论:
    ρ = C o v ( X , Y ) D ( X ) D ( Y ) ρ=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρ=D(X) D(Y) Cov(X,Y)
    -1 ~ +1之间
    If = ±1 :X和Y的线性关系的可能性为1
    if > 0.8 :高度相关
    if < 0.3 :弱相关
  • 实际:样本

多元——矩阵

  • 离差阵:乘n
  • 协方差阵
    在这里插入图片描述
  • 样本相关系数阵

需要会识别每个数的含义
转化成矩阵,便于数学推导

R实现均值计算的函数:apply()
apply(x,1或2,mean);1:行 ;2:列
mean可以改成:median sd var range sum min max quantile

> setwd("C:\\Users\\35982\\Documents\\R class")
> score <- read.csv("学生成绩.csv")
> score
    X 工数1 工数2 线性代数 概率论 应用统计
1   1    95    96       95    100     84.0
2   2    95    96       97     94     95.5
3   3    94    93       94    100     77.0
4   4    93    95       95     99     83.0
5   5    91    90       86     95     81.0
6   6    91    96       95     93     69.0
7   7    91    93      100     99     75.0
8   8    89    91       90     95     72.0
9   9    89    84       85     96     84.0
10 10    88    77       94     77     85.0
11 11    88    97       97    100     97.0
12 12    86    95       92    100     95.0
13 13    83    93       77     90     70.0
14 14    83    65       71     60     42.0
15 15    81    65       72     78     60.0
16 16    80    77       73     70     64.0
17 17    79    76       68     92     71.5
18 18    78    71       82     76     82.0
19 19    78    67       79     90     74.0
20 20    77    73       76     77     66.5
21 21    76    72       77     97     79.0
22 22    76    80       60     86     86.0
23 23    76    90       91     96     90.0
24 24    76    79       82     74     65.5
25 25    75    76       76     79     62.0
26 26    75    60       65     70     49.0
27 27    72    72       64     73     74.0
28 28    72    70       60     68     68.0
> apply(score,1,mean)
 [1] 78.50000 79.91667 76.83333 78.16667 74.66667 75.00000
 [7] 77.50000 74.16667 74.50000 71.83333 81.66667 80.00000
[13] 71.00000 55.83333 61.83333 63.33333 67.25000 67.83333
[19] 67.83333 64.91667 70.33333 68.33333 77.66667 66.75000
[25] 65.50000 57.50000 63.66667 61.00000
# 可以看到明显不对,查看发现有学号掺杂在内,需要去掉
> score <- score[,-1] # 去掉第1列
> score
   工数1 工数2 线性代数 概率论 应用统计
1     95    96       95    100     84.0
2     95    96       97     94     95.5
3     94    93       94    100     77.0
4     93    95       95     99     83.0
5     91    90       86     95     81.0
6     91    96       95     93     69.0
7     91    93      100     99     75.0
8     89    91       90     95     72.0
9     89    84       85     96     84.0
10    88    77       94     77     85.0
11    88    97       97    100     97.0
12    86    95       92    100     95.0
13    83    93       77     90     70.0
14    83    65       71     60     42.0
15    81    65       72     78     60.0
16    80    77       73     70     64.0
17    79    76       68     92     71.5
18    78    71       82     76     82.0
19    78    67       79     90     74.0
20    77    73       76     77     66.5
21    76    72       77     97     79.0
22    76    80       60     86     86.0
23    76    90       91     96     90.0
24    76    79       82     74     65.5
25    75    76       76     79     62.0
26    75    60       65     70     49.0
27    72    72       64     73     74.0
28    72    70       60     68     68.0
> apply(score,1,mean)
 [1] 94.0 95.5 91.6 93.0 88.6 88.8 91.6 87.4 87.6 84.2 95.8
[12] 93.6 82.6 64.2 71.2 72.8 77.3 77.8 77.6 73.9 80.2 77.6
[23] 88.6 75.3 73.6 63.8 71.0 67.6
> apply(score,2,mean)
   工数1    工数2 线性代数   概率论 应用统计 
83.10714 81.75000 81.89286 86.57143 75.03571 
> apply(score,1,sd)
 [1]  5.958188  1.118034  8.619745  6.000000  5.319774
 [6] 11.233877 10.039920  8.905055  5.128353  7.328028
[11]  4.549725  5.128353  9.396808 15.089732  8.757854
[16]  6.220932  9.230385  4.604346  8.384510  4.449719
[21]  9.731393 10.714476  7.469940  6.260990  6.655825
[26]  9.984989  4.000000  4.560702
> apply(score,2,sd)
    工数1     工数2  线性代数    概率论  应用统计 
 7.484994 11.695599 12.245451 12.136351 13.133170 
> apply(score,2,quantile)
     工数1 工数2 线性代数 概率论 应用统计
0%    72.0  60.0    60.00  60.00   42.000
25%   76.0  72.0    72.75  76.75   67.625
50%   82.0  79.5    82.00  91.00   74.500
75%   89.5  93.0    94.00  96.25   84.000
100%  95.0  97.0   100.00 100.00   97.000
> a <- apply(score,2,quantile)
> a
     工数1 工数2 线性代数 概率论 应用统计
0%    72.0  60.0    60.00  60.00   42.000
25%   76.0  72.0    72.75  76.75   67.625
50%   82.0  79.5    82.00  91.00   74.500
75%   89.5  93.0    94.00  96.25   84.000
100%  95.0  97.0   100.00 100.00   97.000
> boxplot(a)

在这里插入图片描述

> cov(score)
            工数1     工数2  线性代数   概率论  应用统计
工数1    56.02513  65.87963  74.56746  57.2328  39.49603
工数2    65.87963 136.78704 112.12037 112.1852 100.60185
线性代数 74.56746 112.12037 149.95106 102.6931  90.98545
概率论   57.23280 112.18519 102.69312 147.2910 113.47884
应用统计 39.49603 100.60185  90.98545 113.4788 172.48016
> cor(score)
             工数1     工数2  线性代数    概率论  应用统计
工数1    1.0000000 0.7525532 0.8135479 0.6300361 0.4017838
工数2    0.7525532 1.0000000 0.7828657 0.7903599 0.6549587
线性代数 0.8135479 0.7828657 1.0000000 0.6910007 0.5657540
概率论   0.6300361 0.7903599 0.6910007 1.0000000 0.7119626
应用统计 0.4017838 0.6549587 0.5657540 0.7119626 1.0000000

相关系数的假设检验——统计证明

步骤:提出原假设、建立检验统计量、计算统计量、确定显著性

假设检验原理(以相关系数的假设检验为例):
H 0 : ρ ( X , Y ) = 0 H_0:ρ(X,Y)=0 H0ρ(X,Y)=0

  • 临界值法:
    在这里插入图片描述
  • P值法:P—value < 0.05 小概率事件发生,推翻原假设

软件中普遍使用P—value

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值