数据分析之统计分析基础(1)


统计分析(statistical analysis)

统计,顾名思义即将信息统括起来进行计算的意思,对数据进行定量处理的理论与技术。统计分析常常指的是对收集到的有关数据资料进行整理归档并进行解释的过程。
按照功能标准划分,可分为描述性统计推断统计
描述统计是将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有平均数、标准差、相关系数等。
推断统计指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法。推断统计包括总体参数估计和假设检验,最常用的方法有Z检验、T检验、卡方检验等。

几个对应概念

总体中—参数,描述统计
样本中—统计量,推断统计

标准误

标准误实际上就是某一统计量抽样分布的标准差。

变量类型和测量尺度

变量类型

定量(quantitative 连续 continuous)
定性(qualitative 分类 categorical)

测量尺度

定类(nominally scaled variable)
利用无权重或无数值的符号以识别变量的不同水平(男:0,女:1)
定序(ordinal variable)
取值含有权重
定距(interval)
取值含有相对值信息
定比(ratio)
取值含有距离信息

抽样方法

含有N个个体的总体中逐个不放回地抽取n个个体作为样本的一种方法。

简单随机抽样(random sampling)

分为重复抽样和不重复抽样。在重复抽样中,每次抽样的单位仍放回总体,样本中的单位可能不止一次被抽中。不重复抽样中,抽中的单位不再放回总体,样本中的单位只能抽中一次。
抽签法
随机数字表法

系统抽样(等距抽样 systematic sampling)

首先将总体中各单位按照一定顺序排列,根据样本容量要求去选择抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式.
等距抽样:随机起点等距抽样、半距起点等距随机抽样、随机起点对称等距抽样、循环等距抽样
排序方法:按照无关标志排序、有关标志排序

分层抽样(stratified random sampling)

从一个可以分成不同子总体的总体中,按规定的比例从不同层中随机抽取样品的方法。优点代表性好,抽样误差比较小。

整体抽样

将总体分为许多群,每个群由个体按一定方式结合而成,然后随机地抽取若干群,并由这些群中的所有个体组成样本。

参考书目

《白话统计学》
《概率论与数理统计》

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值