MATLAB统计与回归_histfit 3sigma-CSDN博客

本文链接：https://blog.csdn.net/augusdi/article/details/4063357

11.2.7相關係數 corrcoef

兩個變數相關性可由相關係數求得。其指令型式如下：


R = corrcoef(X)
R = corrcoef(x,y)
[R,P]=corrcoef(...)
[R,P,RLO,RUP]=corrcoef(...)
[...]=corrcoef(...,'param1',val1,'param2',val2,...)

基本上，R=CORRCOEF(X)在於計算一個R矩陣，其內有Ｘ陣列行間之相關係數。而CORRCOEF(X,Y)則計算 X 與 Y兩行向量之相關係數，其意義與CORRCOEF([X Y])相同。

假設 C為共方矩陣，且 C = COV(X)，則R=CORRCOEF(X)之定義為：


   R(i,j) = C(i,j)/sqrt{C(i,i)C(j,j)}

輸入項中除ＸＹ等資料矩陣外，尚可輸入其他特定變數與常數。這些可以用 'PARAM1',VAL1成對表示，其項目包括：


     參數值：
      'alpha'    顯著水準，預設值為0.05(即95%信任區間)
      'rows'     使用 'all' (預設值)表示使用所有列值；
                 'complete'表示使用沒有含NaN 值之列；
                 'pairwise'表示計算R(i,j)時使用不含
                 NaN值之 i行或 j行。

輸出值中， P表示檢驗無關係假設之Ｐ值矩陣。每一個Ｐ值代表隨機可以觀察得到之最大值域。若 P(i,j)值很小，例如小於 0.05，則R(i,j) 之關係甚為顯著。

此外，有RLO與RUP代表95%信任水準之下限與上限矩陣，其大小與Ｒ相同。

例一


>> x=1:5
x =

     1     2     3     4     5

>> y=x.^3
y =

     1     8    27    64   125

>> r=corrcoef(x,y)
r =

    1.0000    0.9431
    0.9431    1.0000

答案中r之值愈接近於1，其相關性愈高。此例中，對角線為自己對自己(即x對x；y對y)故其相關性為1，其餘x對y或y對x，兩者相關性一樣，其數值為0.9431，也相當高。

例二

利用常態分配亂數指令randn產生30X4大小之資料，開始時先利用第四行建立與其他行間之關係，以橫向加總於第四行。其後以corrcoef求相關係數r及機率p。就機率而言，p值愈小，表示兩者之相異性更強，其結果可利用find指令找出小於0.05以下之機率項目。


       x = randn(20,4);       % uncorrelated data
       x(:,4) = sum(x,2)     % introduce correlation
       [r,p] = corrcoef(x)   
               % compute sample correlation and p-values
       [i,j] = find(p<0.05); 
               % find significant correlations [i,j] 

x =
   0.0828   -0.5703   -0.0716   -0.5850
   0.7662   -1.4986   -2.4146   -4.2576
   2.2368   -0.0503   -0.6943    2.2430
   0.3269    0.5530   -1.3914   -0.0113
   0.8633    0.0835    0.3296    0.7592
   0.6794    1.5775    0.5985    2.2962
   0.5548   -0.3308    0.1472   -0.3822
   1.0016    0.7952   -0.1014    2.6212
   1.2594   -0.7848   -2.6350   -2.4089
   0.0442   -1.2631    0.0281   -1.3408
  -0.3141    0.6667   -0.8763   -1.7822
   0.2267   -1.3926   -0.2655   -1.1188
   0.9967   -1.3006   -0.3276    2.0588
   1.2159   -0.6050   -1.1582   -0.2577
  -0.5427   -1.4886    0.5801   -2.8740
   0.9122    0.5585    0.2398    1.9573
  -0.1721   -0.2774   -0.3509   -2.2362
  -0.3360   -1.2937    0.8921   -0.5890
   0.5415   -0.8884    1.5783   -0.4617
   0.9321   -0.9865   -1.1082   -0.4434
r =
   1.0000    0.1950   -0.3475    0.5143
   0.1950    1.0000    0.0929    0.5785
  -0.3475    0.0929    1.0000    0.3822
   0.5143    0.5785    0.3822    1.0000
p =
   1.0000    0.4100    0.1333    0.0203
   0.4100    1.0000    0.6969    0.0075
   0.1333    0.6969    1.0000    0.0963
   0.0203    0.0075    0.0963    1.0000
ans =
    4     1
    4     2
    1     4
    2     4

11.2.8群組函數grpstats

前面討論到之平均值求法，通常應用於整個陣列之值，若要應用到比較複雜的分組平均問題，則必須使用不同的函數才能達成。此項指令之格式如下：


means = grpstats(X, group)
[means, sem, counts, name] = grpstats(X, group, whichstats)
grpstats(x, group, alpha)

輸入參數中Ｘ為求平均值之對象，Ｘ可為多行，其平均結果也會多行。group則為與Ｘ同列長之陣列，可能由多項分組之向量組成，其內容可為字串列或細胞陣列之文字，如{G1 G2 G3}。若Ｘ中之元素同屬分組中之一項，則其平均值會出現在該項下。

在輸出項中，第一項means為群組平均，sem為組內標準差，counts為各組之項數，name則為各組之名稱。上述項目並非一成不變，亦可以在輸入參數whichstats內依自己之需要進行設定，這個設定有特定的名稱，其名稱必須使用細胞陣列。項目包括：

'mean' 組平均
'sem'　組標準差
'numel'　各組之數目
'gname'　各組之名稱
'std'　標準差
'var'　變異值
'meanci'　平均值之95%上下範圍
'predci'　新值預測之95%信任範圍

輸入參數中有alpha，可改變其顯著水準，其預設值為0.05，或為95%之信任水準。

輸出項中，means 即為各分組項之平均值，sem為該分組項之標準差，counts為該分組下之觀察值數目，而name則為該分組之名稱。

範例一：


　   x = 1     2     3     4     5     6     7     8     9    10
　group= 1     1     1     1     1     2     2     2     2     2;

>> grpstats(x,group)

ans =

3
8

上述結果為分兩組的平均，前五項為一組，後五項為一組。結果第一組平均為3，第二組為8。
組別間，其項數並不一定要相同，例如：

範例二：


x =
  1     2     3     4     5     6     7     8     9

>> group=[1 1 1 1 2 2 2 2 2]
group =

  1     1     1     1     2     2     2     2     2

>> [m,s,c]=grpstats(x,group)

m =

 2.5000
 7.0000


s =

 0.6455
 0.7071

c =

  4
  5

其輸出之第一項為平均值，第二項為標準差，第三項為各組之項數。故即使各組之樣本數不同也可以得到對應組之統計資料。

範例三：

設有200個觀測值分成四小組，每一觀測值分成五項，其平均範圍由1-5。為製造這樣的數據，下面之例子實際上應用了許多特定的函數：

unidrnd(4,100,1)　平均製造一個100X1的陣列，其中之數值分配為1:4的整數範圍，以每項分別以1,2,3,4隨機出現。
normrnd(true_mean,1)　常態分配之亂數函數，其平均值為true_mean，其標準差為1。
true_mean((ones(100,1),:)　利用原來設定之(ones(100,1),:)陣列，重覆100次。

執行此程式後，由於n為細胞陣列，故全改為字串才能同時顯現其結果，其結果如下：


group = unidrnd(4,100,1);%create a 100X1 matrix in random [ 1,2,3,4 ]
true_mean = 1:5;
true_mean = true_mean(ones(100,1),:); %100X5 matrix
x = normrnd(true_mean,1); %randomize
[m, s, c,n] = grpstats(x,group);

[n num2cell(m)]
ans =
'1'    [0.9584]    [1.8200]    [2.8412]    [4.1669]    [5.0220]
'2'    [0.8972]    [1.8393]    [2.9423]    [4.0044]    [4.9437]
'3'    [0.9768]    [2.1093]    [3.1565]    [3.9860]    [5.0585]
'4'    [1.1164]    [2.2249]    [2.8920]    [4.1323]    [5.3251]

範例四：

利用matlab所附的carsmall.mat示範檔案，其中參數項目包括重量(Weight)、年份(Model_Year)等資料，利用該項資料求其年份下之平均車重、預測值、年份名稱及各年份下之數量。最後並利用errorbar繪出其範圍。


% cargroup.m
load carsmall
[Weight Model_Year]'
[means,p,year,count] = grpstats(Weight,Model_Year,...
 {'mean','predci','gname','numel'})
n = length(means);
errorbar((1:n)',means,p(:,2)-means)
set(gca,'xtick',1:n,'xticklabel',year)
title('95% prediction intervals for mean weight by year')

先將上述程式存為cargroup.m檔案，執行後應有許多資料，其中僅選擇本題所需要者。其過程如下：


>> cargroup

ans =

Columns 1 through 7

     3504        3693        3436        3433        3449        4341        4354
       70          70          70          70          70          70          70

Columns 8 through 14

     4312        4425        3850        3090        4142        4034        4166
       70          70          70          70          70          70          70

＝　＝＝　＝＝　＝＝　＝＝　＝＝　＝＝　＝＝　＝＝　＝＝　＝＝　＝＝
Columns 92 through 98

     2835        2665        2370        2950        2790        2130        2295
       82          82          82          82          82          82          82

Columns 99 through 100

     2625        2720
       82          82


means =

1.0e+003 *

 3.4413
 3.0787
 2.4535


p =

1.0e+003 *

 1.7770    5.1056
 1.3832    4.7742
 1.7184    3.1887


year =

 '70'
 '76'
 '82'


count =

 35
 34
 31