matlab 频率分布直方图_样本与直方图、箱线图

文章目录

  • 文章目录

    • 1. 基础概念介绍

    • 2. 样本

    • 3. 直方图

    • 4. 箱线图

1. 基础概念介绍


  • 「总体与个体」

    将试验的全部可能的观察值称为「总体」

    每一个可能的观察值称为「个体」

    总体中所包含的个体的个数称为总体的「容量」

    容量为有限的称为「有限总体」

    容量为无限的称为「无限总体」

    • 例如考察某大学一年级男生的身高这一试验,若一年级男生共人,则每个男生的身高是一个可能的观察值(个体),所形成的的总体中共包含个观察值,是一个有限总体。

    • 又如测量一湖泊任一地点的深度,所得总体是无限总体。

    • 有些有限总体,他的容量很大,我们可以认为它是一个无限总体,例如,考察全国正在使用的某种型号灯泡的寿命所形成的总体,由于可能观测值的个数很多,就可以认为是无限总体

2. 样本


  • 定义

    设是具有分布函数的随机变量,若是具有同一分布函数的、相互独立的随机变量,则称为从分布函数(或总体、或总体)得到的「容量为的简单随机样本」,简称「样本」,它们的观察值称为「样本值」,又称为的个「独立的观察值」

  • 由定义可知,若为的一个样本,则相互独立,且它们的分布函数都是,所以()的分布函数为

    又若具有概率密度,则()的概率密度为

3. 直方图


  • 例子

    下面列出了个伊特拉斯坎人男子的头颅的最大宽度

利用这些数据来绘制「频率直方图」

  • 解答

    4. 箱线图

    • 数据排序

      源数据杂乱无章,将数据进行按照从小到大进行排序

    • 确定绘制的区间

      这些数据的最大值为,最小值为,即所有数据均落在上,绘制区间要包含数据区间,可取绘制区间为 。   一般所取区间比数据的最小值略小,比最大值略大即可

    • 确定等分区间个数

      根据需求自定义等分区间个数,这里设置为。 通常当较大时,取,当时,则取,若取值过大,则会出现某些小区间内的频数为零的情况(一般应设法避免)

    • 计算组距

      组距为每个小区间的长度,记作小区间的端点称为组限

    • 计算频数和频率

      数据落在小区间的次数,称为频数,记为,算出其频率 ,,分点通常取比数据精度高一位,以免数据落在分点上此时,形成如下表格

      组限频数频率累计频率
      124.5~129.510.01190.0119
      129.5~134.540.04760.0595
      134.5~139.5100.11910.1786
      139.5~144.5330.39290.5715
      144.5~149.5240.28570.8572
      149.5~154.590.10710.9524
      154.5~159.530.03571
    • 绘制图形

      利用python的工具包绘制图形,或者其他方式如前端工具highcharts和echarts,matlab等等

      40360190f0e4b2031435155d1c535e62.png
      直方图

      纵坐标为,直方图的的长度为,很显然,这种小矩形的面积就等于数据落在该小区间的频率.由于很大时,频率接近概率,因而一般来说,每个小区间上的小矩形面积接近于概率密度曲线之下该小区间内的曲边梯形面积,因此,一般来说,直方图的外廓曲线接近于总体概率密度曲线,从本例来看,它有一个峰,中间高,两头低,比较对称,看起来服从某一正态分布,从直方图还可以估计落在某一区间的概率,如的人最大头颅宽度落在区间之间等等。


  • 4.1 样本分位数

  • 定义

    设有容量为的样本观察值,样本分位数$(0

  • 求法

样本分位数可按以下法则求得。将按自小至大的次序拍立成

  • 几种重要的分位数

    分位数称为「第一四分位数」,又记为,分位数称为「第三四分位数」,又记为, 在统计中十分有用

  • 异常值处理

    在数据集中,某一个观察值不寻常地大于或者小于该数据集中的其他数据,称为「疑似异常值」。疑似异常值的存在会对随后的计算结果产生不适当的影响,因此对于疑似异常值,需要给予处理。

    第一四分位数于第三四分位数之间的距离,记为,称为「四分位数间距」,若数据小于或大于,则认为它是疑似异常值

  • 箱线图绘制步骤

  1. 画一条水平数轴,在轴上标上 在数轴上方画一个上、下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于的上方,在点的上方画一条垂直线段,线段位于箱子内部。

  2. 计算,若数据小于或大于,则认为它是疑似异常值。在和-处画两条与中位线一样的线段,这两条线段为疑似异常值截断点,称其为内限;在和-处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers),疑似异常值用*表示

  3. 从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间,从下面简单的箱线图可知 ① 中心位置:中位数所在的位置就是数据集的中心 ② 散步程度:全部数据都落在之内,在区间的数据各占区间较短时,表示落在该区间的点比较集中,反之则比较分散 ③ 关于对称性:若中位数位于箱子的中间位置,则数据分布较为对称,又若离的距离较大,则表示数据向左倾斜,反之则表示数据向右倾斜,且能看出来分布尾部的长短

658a9ab3b6e27489a03aa6f1933dd08b.png
箱线图未修正
  • 例题

    下面给出某医院个病人的住院时间(以天计),试画出修正箱线图(数据以排序)

    解:

    ,
    因,得, 又,得
    因此有

    很显然,,因此为疑似异常值,且仅有一个异常值

c57e7cd934ad15937c647fce415c0c2b.png
箱线图
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值