数据科学分析与统计
1、统计学的介绍
2、 基本概念
3、分析方法
4、数据分组处理
5、数据的静态分析指标
6、数据的动态分析指标
7、数据动态分析一一时间数列模型
1、统计学的介绍
1.1 含义
统计学是以数据为食物的动物
Data—— Statistics ——Information
描述统计学(Descriptive Statistics),研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的搜集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
推断统计学(Inferential Statistics),研究如何根据样本数据去推断总体数量特征,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。
描述统计和推断统计是统计方法的两个组成部分,描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。推断统计在现代统计学中的地位越来越重要,已成为统计学的核心内容,这是因为在对现实问题的研究中所获得的数据主要是样本数据。但是二者的作用及地位都是同样重要。从描述统计学发展到推断统计学,是统计学发展的巨大成就,也是统计学成熟的重要标志。
1.2 研究对象、特点及其历史
统计学的研究对象是大量社会经济现象事物总体的数量方面,反映社会现象事物的发展变化在具体时间、地点、条件下的数量表现,揭示事物的本质、相互联系、变动规律性和发展趋势。
1)数量性
数量性是统计学研究对象最基本的特点。 “三算”:what,how ,how much。也就是,“算什么”、“怎么算”、“算出来的是多少”。
2)总体性
社会经济统计是以社会经济现象总体的数量方面作为自己的研究对象。
3)变异性
研究同类现象的数量特征,前提是每个个体是具有差异的。
政治算术学派
威廉·配第:英国古典政治经济学之父,统计学创始人,最早的宏观经济学者。于1672年出版的《政治算术》,对经济学、统计学的发展均具有重大意义。
约翰·格兰特最重要的贡献是编制了世界上第一个死亡表。——统计学创始人
国势学派
海尔曼·康令(H.Conring,1606—1681)第一个在德国黑尔姆斯太特大学以“国势学”为题讲授政治活动家应具备的知识;
阿亨华尔在哥廷根大学开设“国家学”课程,其主要著作是《近代欧洲各国国势学纲要》。首次提出“统计学”一词,并定义为国家显著事项的学问,言下之意是通过这门科学可了解国家理乱兴亡之迹。
概率论学派
布莱斯·帕斯卡(B. Pascal,1623-1662)和数学家费马(Pde Fermat,1601-1665),他们以通信的方式讨论赌博时的概率问题。
瑞士数学家贝努利(I.Bernoulli,1654-1705)提出二项分布理论。
法国的分析学家、概率论学家、物理学家拉普拉斯(P. S. Laplace,1748-127)在1814年发表《概率分析论》一书,构筑了古典概率理论的完整体系,并用于自然和社会现象的研究。
法国著名数学家泊松(S.D. Poisson,1781-1840)提出泊松分布。
数理统计学派——“英美数理统计学派”
比利时学者阿道夫·凯特勒(Adolphe Quetelet,1796-1874),《社会物理》,奠定了近代统计学的基础,被誉为“近代统计学之父”、数理统计学派创始人;享有“国际统计会议之父”。
社会统计学派
德国大学统计学教授克尼斯(K.G.A. Knies,1812-1898)首创,统计学家恩格尔(C.L. Engel,1821-1896)和梅尔;
弗朗西斯·高尔顿(F.Golton,1822-1911)——创立了回归分析;
卡尔·皮尔逊——为现代统计学打下基础,“统计学之父”。
葛塞特(W.S. Gosset,1876-1937)——t一分布;
博雷尔(E. Borel,1871-1956)奠定了现代概率理论的基础;
纳德·费雪(R.A. Fisher,1890—1962),提出Z分布、显著性水平、假设检验、自由度、实验设计和方差分析等方法和概念;
博弈论开创者:美国冯·诺依曼(J.V. Neumann)和摩根斯坦(O. Morgenstern)提出博弈论,使决策理论更加系统化;
现代统计学时期
美国的大学自1950年将统计学设为独立的学系,1955年开始颁授统计学的高级学位。
从20世纪50年代起,统计学受计算机、信息论等现代科学技术的影响,新研究领域层出不穷。据估计,现代统计学是以指数式加速度发展的,新的研究分支不断增加,统计应用领域不断扩展。统计方法在各学科领域的应用又进一步促进了统计方法研究的深入发展。
2、基本概念
1、总体和单位
总体=有限总体+无限总体
总体是由客观存在的、在同一性质基础上结合起来的许多个别事物构成的整体。同质性,大量性、差异性。用大写表示。
有限总体:是由有限量的单位构成的总体,总体单位是可数的。
无限总体:当总体单位数难以确定,其数量有可能是无限、不可数时。
总体单位,简称“单位”,是组成总体的个体,所以有的地方也把单位称为“个体”。
总体和总体单位的关系,是整体与个体、集合与元素的关系,两者相互依存、相互联系。 二者的具体形式会随着统计研究目的的不同而变化。
按计算方法分: 数值平均数:算术平均数、调和平均数、几何平均数
位置平均数:中位数、众数
按反映时间分: 动态平均数、静态平均数
2、平均数
平均指标,是将同质总体内各单位某一数量标志的差异抽象化,用以反映总体在一定时间、地点条件下的一般水平。第一,反映总体各单位标志值分布的集中趋势。 第二,比较同类现象在不同时空范围的差异。 第三,分析现象之间的依存关系。
算术平均数是将总体各单位的标志值相加求其算术总和,然后除以总体单位个数而得。其基本公式:总体标志总量 / 总体单位总量
2.1、简单算术平均数
适用于未分组的统计资料
2.2、 加权算术平均数
适用于分组的统计资料,由组距式数列计算加权算术平均数,可用组中值代表各组变量值。
加权算术平均数与简单算术平均数的关系:
- 相同点,两者均受极端值的影响;
- 不同点,加权算术平均数除了受极端值的影响外,还受权数或次数多少的影响。 联系:当各组权数相同或次数相等时,加权算术平均数就变成简单算术平均数。
加权平均数的影响因素:①若各组标志值不变,各组单位数同时扩大或缩小相同的倍数则 平均数不变;②若各组单位数不变,各组标志值同时扩大或缩小 相同的倍数,平均数也随之扩大或缩小相同的倍数。③若各组权数是相等的,则用加权算术平均和简单算术平均的计算结果是相同。
- 各组标志值(x)
- 各组权数(次数或比重)f 、 x/∑f
2.3、调和平均数
在很多情况下,由于只掌握每组的标志值 x 和标志总量 m 而缺少总体单位数 f 的资料,不能直接采用算术平均数法计算平均数,则应采用调和平均数。有简单调和平均数和加权调和平均数两种。
简单调和平均数 (未分组资料):简单调和平均数是标志值倒数的算术平均数的倒数。
H——调和平均数,x——各单位标志值,n——变量值的个数
如:有某种水果在甲乙丙三个农贸市场的价格分别为1元/千克、0.9元/千克、0.9元/千克。如果在这三个农贸市场各买1元钱的水果,那么平均每千克水果的价格应为多少?
加权调和平均数 (已分组资料) 已知各组的标志值水平和各组的标志总量,不知各组的单位数时。易受极端值的影响。只要有一个标志值为0,就不能计算调和平均数。 调和平均数应用的范围较小。
H——调和平均数,m——各组标志值总量,x——各组标志值
市场 |
价格(元/千克) x |
销售额(元) m |
甲 乙 丙 |
2.00 2.50 2.40 |
60 000 50 000 60 000 |
合计 |
— |
170 000 |
平均价格: