样本与直方图、箱线图

1. 基础概念介绍

  • 总体与个体

    1. 1. 1.将试验的全部可能的观察值称为总体

    2. 2. 2.每一个可能的观察值称为个体

    3. 3. 3.总体中所包含的个体的个数称为总体的容量

    4. 4. 4.容量为有限的称为有限总体

    5. 5. 5.容量为无限的称为无限总体

    • 例如考察某大学一年级男生的身高这一试验,若一年级男生共 2000 2000 2000人,则每个男生的身高是一个可能的观察值(个体),所形成的的总体中共包含 2000 2000 2000个观察值,是一个有限总体。

    • 又如测量一湖泊任一地点的深度,所得总体是无限总体。

    • 有些有限总体,他的容量很大,我们可以认为它是一个无限总体,例如,考察全国正在使用的某种型号灯泡的寿命所形成的总体,由于可能观测值的个数很多,就可以认为是无限总体

2. 样本

  • 定义

    X X X是具有分布函数 F F F的随机变量,若 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn是具有同一分布函数 F F F的、相互独立的随机变量,则称 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn为从分布函数 F F F(或总体 F F F、或总体 X X X)得到的容量为 n n n的简单随机样本,简称样本,它们的观察值 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn称为样本值,又称为 X X X n n n独立的观察值

  • 由定义可知,若 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn F F F的一个样本,则 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn相互独立,且它们的分布函数都是 F F F,所以( X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn)的分布函数为 F ∗ ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n F ( X i ) F^*(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^{n}F(X_i) F(x1,x2,,xn)=i=1nF(Xi)

    又若 X X X具有概率密度 f f f,则( X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots ,X_n X1,X2,,Xn)的概率密度为 f ∗ ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n f ( x i ) f^*(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^{n}f(x_i) f(x1,x2,,xn)=i=1nf(xi)

3. 直方图

  • 例子

    下面列出了 84 84 84个伊特拉斯坎 ( E t r u s c a n ) (Etruscan) (Etruscan)人男子的头颅的最大宽度 ( m m ) (mm) (mm) 141 148 132 138 154 142 150 146 155 158 150 140 147 148 144 150 149 145 149 158 143 141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140 146 142 137 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 147 146 150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144 146 147 140 142 140 137 152 145 141\quad148\quad132\quad138\quad154\quad142\quad150\quad146\quad155\quad158\\ 150\quad140\quad147\quad148\quad144\quad150\quad149\quad145\quad149\quad158\\ 143\quad141\quad144\quad144\quad126\quad140\quad144\quad142\quad141\quad140\\ 145\quad135\quad147\quad146\quad141\quad136\quad140\quad146\quad142\quad137\\ 148\quad154\quad137\quad139\quad143\quad140\quad131\quad143\quad141\quad149\\ 148\quad135\quad148\quad152\quad143\quad144\quad141\quad143\quad147\quad146\\ 150\quad132\quad142\quad142\quad143\quad153\quad149\quad146\quad149\quad138\\ 142\quad149\quad142\quad137\quad134\quad144\quad146\quad147\quad140\quad142\\ 140\quad137\quad152\quad145 141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145

利用这些数据来绘制频率直方图

  • 解答

    • 数据排序

      源数据杂乱无章,将数据进行按照从小到大进行排序

    • 确定绘制的 x x x区间

      这些数据的最大值为 158 158 158,最小值为 126 126 126,即所有数据均落在 [ 126 , 158 ] [126,158] [126,158]上,绘制区间要包含数据区间,可取绘制区间为 [ 124.5 , 159.5 ] [124.5,159.5] [124.5,159.5] 。 一般所取区间比数据的最小值略小,比最大值略大即可

    • 确定等分区间个数

      根据需求自定义等分区间个数,这里设置为 7 7 7
      通常当 n n n较大时, k k k 10 ∼ 20 10\sim20 1020,当 n < 50 n<50 n<50时,则 k k k 5 ∼ 6 5\sim6 56,若 k k k取值过大,则会出现某些小区间内的频数为零的情况(一般应设法避免)

    • 计算组距

      组距为每个小区间的长度,记作 Δ = ( 159.5 − 124.5 ) / 7 = 5 \Delta=(159.5-124.5)/7=5 Δ=(159.5124.5)/7=5
      小区间的端点称为组限

    • 计算频数和频率

      数据落在小区间的次数,称为频数,记为 f i f_i fi,算出其频率 f i / n ( n = 84 , i = 1 , 2 , 3 , ⋯   , 7 ) f_i/n \quad (n=84,i=1,2,3,\cdots,7) fi/n(n=84,i=1,2,3,,7) ,,分点通常取比数据精度高一位,以免数据落在分点上此时,形成如下表格

      组限频数 f i f_i fi频率 f i / n f_i/n fi/n累计频率
      124.5 ∼ 129.5 124.5\sim129.5 124.5129.5 1 1 1 0.0119 0.0119 0.0119 0.0119 0.0119 0.0119
      129.5 ∼ 134.5 129.5\sim134.5 129.5134.5 4 4 4 0.0476 0.0476 0.0476 0.0595 0.0595 0.0595
      134.5 ∼ 139.5 134.5\sim139.5 134.5139.5 10 10 10 0.1191 0.1191 0.1191 0.1786 0.1786 0.1786
      139.5 ∼ 144.5 139.5\sim144.5 139.5144.5 33 33 33 0.3929 0.3929 0.3929 0.5715 0.5715 0.5715
      144.5 ∼ 149.5 144.5\sim149.5 144.5149.5 24 24 24 0.2857 0.2857 0.2857 0.8572 0.8572 0.8572
      149.5 ∼ 154.5 149.5\sim154.5 149.5154.5 9 9 9 0.1071 0.1071 0.1071 0.9524 0.9524 0.9524
      154.5 ∼ 159.5 154.5\sim159.5 154.5159.5 3 3 3 0.0357 0.0357 0.0357 1 1 1
    • 绘制图形

      利用python的工具包绘制图形,或者其他方式如前端工具highcharts和echarts,matlab等等

      直方图

      纵坐标为 f i n / Δ \frac{f_i}{n}/\Delta nfi/Δ,直方图的的长度为 Δ \Delta Δ,很显然,这种小矩形的面积就等于数据落在该小区间的频率 f i / n f_i/n fi/n.由于 n n n很大时,频率接近概率,因而一般来说,每个小区间上的小矩形面积接近于概率密度曲线之下该小区间内的曲边梯形面积,因此,一般来说,直方图的外廓曲线接近于总体 X X X概率密度曲线,从本例来看,它有一个峰,中间高,两头低,比较对称,看起来服从某一正态分布,从直方图还可以估计 X X X落在某一区间的概率,如 51.2 51.2% 51.2的人最大头颅宽度落在区间 ( 134.5 , 144.5 ) (134.5,144.5) (134.5,144.5)之间等等。

    4. 箱线图

    • 4.1 样本分位数

    • 定义

      设有容量为 n n n的样本观察值 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn,样本 p p p分位数 ( 0 < p < 1 ) (0<p<1) (0<p<1)记为 x p x_p xp,它具有以下的性质: ( 1 ) (1) (1) 至少有 n p np np个观察值小于或者等于 x p x_p xp ( 2 ) (2) (2)至少有 n ( 1 − p ) n(1-p) n(1p)个观察值大于或者等于 x p x_p xp

    • 求法

    样本 p p p分位数可按以下法则求得。将 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn按自小至大的次序拍立成 x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n ) . x_{(1)}\leq x_{(2)}\leq \cdots\leq x_{(n)}. x(1)x(2)x(n).

    x p = { x ( [ n p ] + 1 ) , 当 n p 不 是 整 数 1 2 [ x ( n p ) + x ( n p + 1 ) ] , 当 n p 是 整 数 x_p = \begin{cases} x_{([np]+1)},\quad 当np不是整数 \\\\ \frac{1}{2}[x_{(np)}+x_{(np+1)}],\quad 当np是整数 \end{cases} xp=x([np]+1),np21[x(np)+x(np+1)],np

    • 几种重要的分位数

      0.25 0.25 0.25分位数 x 0.25 x_{0.25} x0.25称为第一四分位数,又记为 Q 1 Q_1 Q1 0.75 0.75 0.75分位数 x 0.75 x_{0.75} x0.75称为第三四分位数,又记为 Q 3 . Q_3. Q3. x 0.25 , x 0.5 , x 0.75 x_{0.25},x_{0.5},x_{0.75} x0.25,x0.5,x0.75 在统计中十分有用

    • 异常值处理

      ​ 在数据集中,某一个观察值不寻常地大于或者小于该数据集中的其他数据,称为疑似异常值。疑似异常值的存在会对随后的计算结果产生不适当的影响,因此对于疑似异常值,需要给予处理。

      ​ 第一四分位数 Q 1 Q_1 Q1于第三四分位数 Q 3 Q_3 Q3之间的距离, Q 3 − Q 1 = 记 为 I Q R Q_3-Q_1 \stackrel{记为}=IQR Q3Q1=IQR,称为四分位数间距,若数据小于 Q 1 − 1.5 I Q R Q_1-1.5IQR Q11.5IQR或大于 Q 3 + 1.5 I Q R Q_3+1.5IQR Q3+1.5IQR,则认为它是疑似异常值

    • 箱线图绘制步骤

      1. 画一条水平数轴,在轴上标上 M i n , Q 1 , M , Q 3 , M a x . Min,Q_1,M,Q_3,Max. Min,Q1,M,Q3,Max. 在数轴上方画一个上、下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于 Q 1 , Q 3 Q_1,Q_3 Q1,Q3的上方,在 M M M点的上方画一条垂直线段,线段位于箱子内部。

      2. 计算 I Q R = Q 3 − Q 1 IQR=Q_3-Q_1 IQR=Q3Q1,若数据小于 Q 1 − 1.5 I Q R Q_1-1.5IQR Q11.5IQR或大于 Q 3 + 1.5 I Q R Q_3+1.5IQR Q3+1.5IQR,则认为它是疑似异常值。在 Q 3 + 1.5 I Q R Q_3+1.5IQR Q3+1.5IQR Q 1 - 1.5 I Q R Q_1-1.5IQR Q11.5IQR处画两条与中位线一样的线段,这两条线段为疑似异常值截断点,称其为内限;在 Q 3 + 3 I Q R Q_3+3IQR Q3+3IQR Q 1 - 3 I Q R Q1-3IQR Q13IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers),疑似异常值用*表示

      3. 从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间,从下面简单的箱线图可知
        ① 中心位置:中位数所在的位置就是数据集的中心
        ② 散步程度:全部数据都落在 [ M i n , M a x ] [Min,Max] [Min,Max]之内,在区间 [ M i n , Q 1 ] , [ Q 1 , M ] , [ M , Q 3 ] , [ Q 3 , M a x ] [Min,Q_1],[Q_1,M],[M,Q_3],[Q_3,Max] [Min,Q1],[Q1,M],[M,Q3],[Q3,Max]的数据各占 1 4 \frac{1}{4} 41区间较短时,表示落在该区间的点比较集中,反之则比较分散
        ③ 关于对称性:若中位数位于箱子的中间位置,则数据分布较为对称,又若 M i n Min Min M M M的距离较大,则表示数据向左倾斜,反之则表示数据向右倾斜,且能看出来分布尾部的长短

箱线图未修正

  • 例题

    下面给出某医院 21 21 21个病人的住院时间(以天计),试画出修正箱线图(数据以排序)

    1 2 3 3 4 4 5 6 6 7 7 9 9 10 12 12 13 15 18 23 55 1 \quad 2 \quad 3 \quad 3 \quad 4 \quad 4 \quad 5 \quad 6 \quad 6 \quad 7 \quad 7 \quad 9 \quad 9 \quad 10 \quad 12 \quad 12 \quad 13 \quad 15 \quad 18 \quad 23 \quad 55 12334456677991012121315182355

    解:

    M i n = 1 , M a x = 55 , M = 7 , 因 21 × 0.25 = 5.25 , 得 Q 1 = 4 , 又 21 × 0.75 = 15.75 , 得 Q 3 = 12 因 此 有 I Q R = Q 3 − Q 1 = 8 ∴ Q 3 + I Q R = 24 , Q 3 − 1.5 I Q R = − 8 Min=1,Max=55,M=7,因21\times0.25=5.25,得Q_1=4,\\ 又21\times0.75=15.75,得Q_3=12\\ 因此有IQR=Q_3-Q_1=8\\ \therefore Q_3+IQR=24,Q_3-1.5IQR=-8 Min=1,Max=55,M=7,21×0.25=5.25,Q1=421×0.75=15.75,Q3=12IQR=Q3Q1=8Q3+IQR=24,Q31.5IQR=8

    很显然, 55 > 24 55>24 55>24,因此 55 55 55为疑似异常值,且仅有一个异常值

箱线图

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

积跬步以至千里。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值