多元统计特征（1）

最新推荐文章于 2022-07-02 07:30:00 发布

司马平雋

最新推荐文章于 2022-07-02 07:30:00 发布

阅读量967

点赞数

分类专栏： R

本文链接：https://blog.csdn.net/fredrickwood/article/details/110469777

版权

R 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

课堂笔记

文章目录

集中度的度量——数学期望

理论数学期望：
$E(X)=\int{xf(x)}$
实际：
样本和 / 样本个数

散度的度量——方差、标准差

理论：
$D(X)=E(X-E(X))^2$
实际：样本
$\sigma^2=\frac{\Sigma(x_i-\bar{x})^2}{n-1}$
n-1 : 无偏估计 & 自由度
n : 极大似然估计
实际均可，由于“大”数据基本没有区别

多元——矩阵

离差阵：乘n
协方差阵
样本相关系数阵

需要会识别每个数的含义
转化成矩阵，便于数学推导

R实现均值计算的函数：apply()
apply(x,1或2,mean)；1：行；2：列
mean可以改成：median sd var range sum min max quantile

> setwd("C:\\Users\\35982\\Documents\\R class")
> score <- read.csv("学生成绩.csv")
> score
    X 工数1 工数2 线性代数 概率论 应用统计
1   1    95    96       95    100     84.0
2   2    95    96       97     94     95.5
3   3    94    93       94    100     77.0
4   4    93    95       95     99     83.0
5   5    91    90       86     95     81.0
6   6    91    96       95     93     69.0
7   7    91    93      100     99     75.0
8   8    89    91       90     95     72.0
9   9    89    84       85     96     84.0
10 10    88    77       94     77     85.0
11 11    88    97       97    100     97.0
12 12    86    95       92    100     95.0
13 13    83    93       77     90     70.0
14 14    83    65       71     60     42.0
15 15    81    65       72     78     60.0
16 16    80    77       73     70     64.0
17 17    79    76       68     92     71.5
18 18    78    71       82     76     82.0
19 19    78    67       79     90     74.0
20 20    77    73       76     77     66.5
21 21    76    72       77     97     79.0
22 22    76    80       60     86     86.0
23 23    76    90       91     96     90.0
24 24    76    79       82     74     65.5
25 25    75    76       76     79     62.0
26 26    75    60       65     70     49.0
27 27    72    72       64     73     74.0
28 28    72    70       60     68     68.0
> apply(score,1,mean)
 [1] 78.50000 79.91667 76.83333 78.16667 74.66667 75.00000
 [7] 77.50000 74.16667 74.50000 71.83333 81.66667 80.00000
[13] 71.00000 55.83333 61.83333 63.33333 67.25000 67.83333
[19] 67.83333 64.91667 70.33333 68.33333 77.66667 66.75000
[25] 65.50000 57.50000 63.66667 61.00000
# 可以看到明显不对，查看发现有学号掺杂在内，需要去掉
> score <- score[,-1] # 去掉第1列
> score
   工数1 工数2 线性代数 概率论 应用统计
1     95    96       95    100     84.0
2     95    96       97     94     95.5
3     94    93       94    100     77.0
4     93    95       95     99     83.0
5     91    90       86     95     81.0
6     91    96       95     93     69.0
7     91    93      100     99     75.0
8     89    91       90     95     72.0
9     89    84       85     96     84.0
10    88    77       94     77     85.0
11    88    97       97    100     97.0
12    86    95       92    100     95.0
13    83    93       77     90     70.0
14    83    65       71     60     42.0
15    81    65       72     78     60.0
16    80    77       73     70     64.0
17    79    76       68     92     71.5
18    78    71       82     76     82.0
19    78    67       79     90     74.0
20    77    73       76     77     66.5
21    76    72       77     97     79.0
22    76    80       60     86     86.0
23    76    90       91     96     90.0
24    76    79       82     74     65.5
25    75    76       76     79     62.0
26    75    60       65     70     49.0
27    72    72       64     73     74.0
28    72    70       60     68     68.0
> apply(score,1,mean)
 [1] 94.0 95.5 91.6 93.0 88.6 88.8 91.6 87.4 87.6 84.2 95.8
[12] 93.6 82.6 64.2 71.2 72.8 77.3 77.8 77.6 73.9 80.2 77.6
[23] 88.6 75.3 73.6 63.8 71.0 67.6
> apply(score,2,mean)
   工数1    工数2 线性代数   概率论 应用统计 
83.10714 81.75000 81.89286 86.57143 75.03571 
> apply(score,1,sd)
 [1]  5.958188  1.118034  8.619745  6.000000  5.319774
 [6] 11.233877 10.039920  8.905055  5.128353  7.328028
[11]  4.549725  5.128353  9.396808 15.089732  8.757854
[16]  6.220932  9.230385  4.604346  8.384510  4.449719
[21]  9.731393 10.714476  7.469940  6.260990  6.655825
[26]  9.984989  4.000000  4.560702
> apply(score,2,sd)
    工数1     工数2  线性代数    概率论  应用统计 
 7.484994 11.695599 12.245451 12.136351 13.133170 
> apply(score,2,quantile)
     工数1 工数2 线性代数 概率论 应用统计
0%    72.0  60.0    60.00  60.00   42.000
25%   76.0  72.0    72.75  76.75   67.625
50%   82.0  79.5    82.00  91.00   74.500
75%   89.5  93.0    94.00  96.25   84.000
100%  95.0  97.0   100.00 100.00   97.000
> a <- apply(score,2,quantile)
> a
     工数1 工数2 线性代数 概率论 应用统计
0%    72.0  60.0    60.00  60.00   42.000
25%   76.0  72.0    72.75  76.75   67.625
50%   82.0  79.5    82.00  91.00   74.500
75%   89.5  93.0    94.00  96.25   84.000
100%  95.0  97.0   100.00 100.00   97.000
> boxplot(a)

在这里插入图片描述

> cov(score)
            工数1     工数2  线性代数   概率论  应用统计
工数1    56.02513  65.87963  74.56746  57.2328  39.49603
工数2    65.87963 136.78704 112.12037 112.1852 100.60185
线性代数 74.56746 112.12037 149.95106 102.6931  90.98545
概率论   57.23280 112.18519 102.69312 147.2910 113.47884
应用统计 39.49603 100.60185  90.98545 113.4788 172.48016
> cor(score)
             工数1     工数2  线性代数    概率论  应用统计
工数1    1.0000000 0.7525532 0.8135479 0.6300361 0.4017838
工数2    0.7525532 1.0000000 0.7828657 0.7903599 0.6549587
线性代数 0.8135479 0.7828657 1.0000000 0.6910007 0.5657540
概率论   0.6300361 0.7903599 0.6910007 1.0000000 0.7119626
应用统计 0.4017838 0.6549587 0.5657540 0.7119626 1.0000000