关于统计学

1.起源背景

    统计学是一门很古老的科学,一般认为其学理研究始于古希腊亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。

2.主要学派

统计学的萌芽产生在欧洲,17世纪中叶至18世纪中叶是统计学的创立时期。在这一时期,统计学理论初步形成了一定的学术派别,主要有国势学派和政治算术学派。

3.当代发展现状

信息论控制论系统论与统计学的相互渗透和结合,使统计科学进一步得到发展和日趋完善。信息论、控制论、系统论在许多基本概念、基本思想、基本方法等方面有着共同之处,三者从不同角度、侧面提出了解决共同问题的方法和原则。三论的创立和发展,彻底改变了世界的科学图景和科学家的思维方式,也使统计科学和统计工作从中吸取了营养,拓宽了视野,丰富了内容,出现了新的发展趋势。

计算技术和一系列新技术、新方法在统计领域不断得到开发和应用。近几十年间,计算机技术不断发展,使统计数据的搜集、处理、分析、存贮、传递、印制等过程日益现代化,提高了统计工作的效能。计算机技术的发展,日益扩大了传统的和先进的统计技术的应用领域,促使统计科学和统计工作发生了革命性的变化。如今,计算机科学已经成为统计科学不可分割组成部分。随着科学技术的发展,统计理论和实践深度和广度方面也不断发展。

统计在现代化管理和社会生活中的地位日益重要。随着社会、经济和科学技术的发展,统计在现代化国家管理和企业管理中的地位,在社会生活中的地位,越来越重要了。人们的日常生活和一切社会生活都离不开统计。英国统计学家哈斯利特说:“统计方法的应用是这样普遍,在我们的生活和习惯中,统计的影响是这样巨大,以致统计的重要性无论怎样强调也不过分”。甚至有的科学家还把我们的时代叫做“统计时代”。显然,20世纪统计科学的发展及其未来,已经被赋予了划时代的意义。

4.主要术语

统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。

描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。

推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。

变量(variable):每次观察会得到不同结果的某种特征。

分类变量(categorical variable):观测结果表现为某种类别的变量。

顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。

数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。

均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。

中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。

众数(mode):众数也就是数据集中出现频率最多的数字。

5.相关观念

为了将统计学应用到科学,工业以及社会问题上,我们由研究母体开始。这可能是一个国家的人民,石头中的水晶,或者是某家特定工厂所生产的商品。一个母体甚至可能由许多次同样的观察程序所组成;由这种资料收集所组成的母体我们称它叫时间序列

为了实际的理由,我们选择研究母体的子集代替研究母体的每一笔资料,这个子集称做样本。以某种经验设计实验所搜集的样本叫做资料。资料是统计分析的对象,并且被用做两种相关的用途:描述和推论。描述统计学处理有关叙述的问题:资料是否可以被有效的摘要,不论是以数学或是图片表现,以用来代表母体的性质?基础的数学描述包括了平均数和标准差。图像的摘要则包含了许多种的表和图。

推论统计学被用来将资料中的数据模型化,计算它的机率并且做出对于母体的推论。这个推论可能以对/错问题的答案所呈现(假设检定),对于数字特征量的估计(估计),对于未来观察的预测,关联性的预测(相关性),或是将关系模型化(回归)。其他的模型化技术包括变异数分析(ANOVA),时间序列,以及数据挖掘。

相关的观念特别值得被拿出来讨论。对于资料集合的统计分析可能显示两个变量(母体中的两种性质)倾向于一起变动,好像它们是相连的一样。举例来说,对于人收入和死亡年龄的研究期刊可能会发现穷人比起富人平均来说倾向拥有较短的生命。这两个变量被称做相关的。但是实际上,我们不能直接推论这两个变量中有因果关系;参见相关性推论因果关系(逻辑谬误)。

如果样本足以代表母体的,那么由样本所做的推论和结论可以被引申到整个母体之上。最大的问题在于决定样本是否足以代表 整个母体。统计学提供了许多方法来估计和修正样本和收集资料过程中的随机性(误差),如同上面所提到的透过经验所设计的实验。参见实验设计。

要了解随机性或是机率必须具备基本的数学观念。数理统计(通常又叫做统计理论)是应用数学的分支,它使用机率论来分析并且验证统计的理论基础。

任何统计方法是有效的只有当这个系统或是所讨论的母体满足方法论的基本假设。误用统计学可能会导致描述面或是推论面严重的错误,这个错误可能会影响社会政策,医疗实践以及桥梁或是核能发电计划结构的可靠性。

即使统计学被正确的应用,结果对于不是专家的人来说可能会难以陈述。举例来说,统计资料中显著的改变可能是由样本的随机变量所导致,但是这个显著性可能与大众的直觉相悖。人们需要一些统计的技巧(或怀疑)以面对每天日常生活中透过引用统计数据所获得的资讯。

6.统计方法

       测量的尺度

  统计学一共有四种测量的尺度或是四种测量的方式。这四种测量(名目、顺序、等距、等比)在统计过程中具有不等的实用性 。

等比尺度(Ratio measurements)拥有零值及资料间的距离是相等被定义的;

等距尺度(Interval measurements)资料间的距离是相等被定义的但是它的零值并非绝对的无而是自行定义的(如智力或温度的测量);

顺序尺度( Ordinal measurements)的意义并非表现在其值而是在其顺序之上;

名目尺度(Nominal measurements)的测量值则不具量的意义。

     统计技术

以下列出一些有名的统计检定方法以及可供验证实验数据的程序

Fisher最小显著差异法(Fisher's Least Significant Difference test )

学生t检验(Student's t-test)

曼-惠特尼 U 检定(Mann-Whitney U)

回归分析(regression analysis)

相关性(correlation)

皮尔森积矩相关系数(Pearson product-moment correlation coefficient)

史匹曼等级相关系数(Spearman's rank correlation coefficient )

卡方分布(chi-square )

德国的斯勒兹曾说过:“统计是动态的历史,历史是静态的统计”。可见统计学的产生与发展是和生产的发展、社会的进步紧密相联的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值