单变量描述性统计1-2
单变量:描述性统计(1)
(1)数据
(2 )数据描述
(3 )分布
统计的地位
科学测量
• 可重复的数据测量是科学与工程共同的基本假设。
使数据测量的行为相似,即满足四个基本假设:
①数据是随机的 (Stochastic//Random) 。
②数据来自特定的分布。
③数据在分布中有特定位置,即测量结果可表达为
一个确定性常数与一个随机性误差之和。
④数据在分布中的变异是固定的,即测量的随机误
差服从特定的概率分布。
• 如果上述四个假设均满足,则科学与工程的所有
重要目标都具有可预见性,实现概率意义上的可
预知。因此,科学与工程过程可以说是“在统计
控制中”。理性基础上,所有的判断都是统计学。
• 随机性是测量过程的4个基本假设之一。随机
性假设之所以非常重要。是因为:
①多数标准统计检验依赖随机性。检验结论的有
效性直接与随机性假设的有效性有关。
②许多常用的统计公式依赖于随机性假设,最常
见的公式是样本均值的标准误差计算公式
其中s是数据标准差。尽管这些公式大量使用,
如果不具有随机性假设,则公式的计算结果就
没有意义。
③单变量数据的缺省模型是:x=常数+误差。如
果数据没有随机性,该模型就是错误的无效模
型,参数估计也就变得没有意义和无效。
如何描述?
• 位置:分布的中心趋势
• 尺度:以中心趋势为中心的散度
• 形状:和对称分布比较?和正态峰值的比较
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐描述分布,………描述什么样的
数据分布?
尺度
尺度(scale )一词来自拉丁文“scala ”或
“ladder”,指一系列的等级或水平。
拉丁文中,尺度是指特定的图形倾向。尺度的
可视化表达,即数轴及其标记,看上去象一个梯
子。尺度是一个函数类型,我们依此在一定维度
上完成变量集制图。简单地说,尺度就是我们选
择制图的数值范围及其标记间隔。
尺度决定如何感知图形大小、形状和位置。选择
一个尺度,需要我们考虑我们正在测量什么?我
们测量的意义是什么?尺度的选择,决定我们如
何解释图形的意义。
描述什么样的数据?
要选择合适的统计工具,分析数据,要求:
(1)理解不同统计分析方法应用的基本假设。
(2 )熟悉数据与目标系统的特征。
C. R. Rao教授说:
• 对统计学的忽视和排斥,将造成不必要的愚昧无知。
• 对统计学的一知半解,将导致不必要的上当受骗。
• 统计思维实际是每个有效率的民众必须的一种能力。
如何用好统计学?以环境数据为例
需要采集什么数据,才能有效和准确地回答环境问
题?需要采集多少观测数据,才能满足误差要求,
又不浪费资源?如何布设样本,才能反映环境时空
特征?从样本数据中,能推断出什么样的结论,如
何估计、预测、检验数据相关参数?结论可信度有
多大,即在什么样的置信水平上,得出的结果或结
果的置信区间?
对这些问题的回答,决定了环境统计分析的基本步
骤是:①设计问题。在使用统计前,先要清楚希望
得到什么信息,由此指导采样。
②理解数据,分清环境数据类型,不同数据类型有
不同统计方法和数据表达方式。
③选择统计分析方法,推断或计算统计量,解释统
计计算结果。
④检验环境统计量的显著性,推断总体相关参数。
如何用好统计学?
• 有偏的样本、遗漏某些重要数据、样本误差、统计
图、不匹配的资料、不合规范的统计量选择,混淆
相关关系与因果关系,和不正确地使用环境样本数
据,都可能导致错误的统计结论。
• 因此,环境统计分析中,应用审慎地考虑:
①数据来源,如何采样、如何完成样本测试?不同
的采样方式,统计量(如均值、方差)的计算方法
可能不同。
②是否遗漏什么重要的数据?或者在小样本的数据
中,包含极端数值?即数据是否有统计意义。数据
是否满足经典统计分析的假设,即样本来自同一总
体,样本之间相互独立,且服从某种特定分布。
③是否偷换了概念,在本来没有