统计学从挂科到满分【笔记1】

第一章 概论

1. 统计的含义

  • 统计活动:与统计有关的活动,统计调查,统计分析
  • 统计学:对于如何收集,如何分析的科学
  • 统计数据:统计的图表等

统计学是收集和分析数据的科学与艺术

统计学的构成要素:问题,数据,方法

方法跟着数据走,数据跟着问题走

发展阶段:古典统计学-近代统计学-现代统计学

2. 统计学的分类

分类 1
  • 描述统计学:整理收集数据的特征汇总,分类,计算,表格,指标,目的在于概括
  • 推断统计学:关注如何从样本种发现总体的特征,目的是推断
分类 2
  • 理论统计学:提供对抽象数量的原则研究
  • 应用统计学:提供对具体数据的研究

3. 统计数据的分类

分类 1

按测量尺度分:

  • 定性数据:只能用string或者code表示特征属性的数据。
    定性数据又分为:
    (1)定类数据:省份,性别(分类结果)
    (2)定序数据:满意度(排序结果编码)

  • 定量数据:数值表现失误数量特征的数据
    (1)定距数据:能反映数量的差距,不存在绝对零点,比如:利润,人数,温度,湿度
    (2)定比数据:存在绝对零点,比如:体重,身高

分类 2

按数据来源分:

  • 实验数据
  • 观测数据
分类 3

按时空状态分:

  • 时序数据:含时间线
  • 截面数据:某个时间点的数据详情
  • 平行数据:都有以上特征
分类 4

按表现形式分:

  • 绝对数:总人口,销售额
  • 平均数:平均工资
  • 相对数:性别比,人口密度,比重
分类 5

按数据结构分:

  • 结构化数据:可计数的数
  • 非结构化数据:视频,语音…

4. 统计活动的分类

  • 大量观察法
  • 统计分组法:聚类分析,传统分组
  • 综合指标法:总量指标,相对指标,平均指标
  • 统计推断法:抽样估计,假设验证
  • 统计模型法:线性模型,非线性模型

5. 统计学的基本概念

总体:所有对象的总称,分为:有限总体,无限总体(可数和不可数);也可以分为:具体总体,抽象总体(类与被实例化的类)
样本
(1)样本容量:一个样本所包含的单位数;
(2)样本数量:总体种抽取的样本元素的总个数

他们之间的关系:
总体是需要研究的对象,样本则是反映总体而被观测的对象。

变量:根据数据计量尺度分为:定性变量,定量变量;根据影响因素分为:确定性变量,随机变量;根据数据连续性分为:离散型变量,连续型变量。

标志:用以描述表现 个体 特征的名称,分为不变标志(比如户籍),可变标志(身高);也可以分为直接标志,间接标志。

统计指标:用以描述总体特征的名称,分为总量指标(数量指标),相对指标,平均指标(两者都属于质量指标)

指标关系:等式关系,因果关系,相关关系,补充关系…

第二章 统计数据与方案

1. 统计数据的来源

我们一般将其分为一手收据与二手数据,一手数据是通过统计调查和观察实验得来的,而二手数据是通过公开版物,网络数据等得来的。
一手数据收集方法【调查】:普查,抽样调查,重点调查,典型调查…
一手数据收集方法【实验】:完全随机实验,随机分组实验,拉丁方试验,正交试验…

1.1 普查

人口,经济…

1.2 重点调查

对于重点单位进行调查,数目不一定最多,但占标志比重较大,最能反映总体的情况的那个标志

1.3 典型调查

有意识地选取特定对象进行调查,比如特意选取优秀者调查以学习经验。

1.4 抽样调查

抽样分为:

  • 概率抽样:对于每个组别都规定一定的概率进行抽样,
    在概率抽样的方法里面也细分:
    (1)重复抽样:抽取之后放回去
    (2)不重复抽样:抽取之后不放回去
  • 非概率抽样:没有组别一说,全部随机抽取

概率抽样下面也又很多方法:

  • 随机思想:随机
  • 分层思想:先对总体对象进行相关标志的分层,再在每层随机抽
  • 等距思想:排序之后按间隔抽取
  • 整群思想:对于样本进行随机分组,然后选择一组或者多组作为样本
  • 多阶段思想:对于不同阶段完成的任务进行分阶段

而非概率抽样的思想:
方便:比如街上派问卷,报刊的问卷那些
判断:根据主观经验从总体抽取有代表性的样本
滚雪球:先找到最初的样本单位,根据他们提供的信息去获取新的样本单位,比如调查犯罪人员,抓到一个,然后根据他们提供的人员继续抓。

2. 统计数据的分组

2.1 分布数列:根据一定的分组标志对原始资料进行分组,并按照一定顺序进行排列而产生的数列

比如说,现在根据收入分为:2-3w,5-10w,10-80w…

2.2 组距与组数与组中值:
对于组距分为等距与非等距,对于组数n的确定,根据公式:
n = 1 + 3.33 ∗ l g N ( 总 数 ) n=1+3.33*lgN(总数) n=1+3.33lgN()

对于组距确定公式:
D = m a x − m i n n D=\frac{max-min}{n} D=nmaxmin

上限:max
下限:min
组中值: m a x + m i n 2 \frac{max+min}{2} 2max+min

假如在缺限组:比如缺了下限例如只有
x ≤ m a x x\leq max xmax
组中值:
m a x − D n e a r 2 \frac{max-D_{near}}{2} 2maxDnear

假如是缺上限则是:
m i n + D n e a r 2 \frac{min+D_{near}}{2} 2min+Dnear

D n e a r D_{near} Dnear是邻近组的组中值

2.3 累计频数和累计频率
累计频数和频率意思就是比如:2-5w的人群占了20%,那么2-10w的人群占了40%,这40%里面有20%的人。

需要区分:

  • 向上累计:从标志Low → \rightarrow High
  • 向下累计:从标志High → \rightarrow Low

3. 统计图的类型

直方图
在这里插入图片描述
折线图来自于直方图;
在这里插入图片描述
箱线图
首先找出一组数据的5个特征值:最大值,最小值,中位数,上四分位数,下四分位数
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值