第一节 数据类型及变量概念

8 篇文章 0 订阅

数据类型及变量概念

统计学概念介绍

1、统计学研究的目的:
解决问题、提供决策建议等,地位等同于“军师”。
2、研究流程及对象特征:
提出问题——数据收集——分析数据——结果解读——实践运用,统计学是群体性研究,只研究共性不研究个性。
3、数字载体
统计学研究的是现实生活,因此,现实生活中的事件或者事物是研究的载体,而数据是起到辅助作用的客体。数字的作用就是将主观的现实事物量化,变成标准的、客观的,具有可研究性的内容。
4、人的主导权
数据分析是一个工具,是帮助研究人员实现某种目的的工具。而对于整个研究流程的把控全部掌握在人的手里。包括结果正确性的纠察,运用方案制定等。

数据类型介绍

分类数据: 我们所认知的数据类型中最直观的数据。
等级资料: 和分类数据有类似之处,都是对事物分类的结果。但是最大的区别在于事物分类以后,类别之间有登记划分关系。
数值型数据:现实中分布最广泛的数据类型,同时也是数据分析的核心数据类型。此类数据是对事物直接观测所得的结果。

变量定义

变量是说明现象某种特征发概念,是指从一次观察到下一次观察结果会呈现出差别或者变化的情况。

1.分类变量:由诸多分类数据构成的整体
2.顺序变量:由诸多等级资料数据构成的整体叫做顺序变量或者登记变量
3.数值型变量:数值型数据构成的整体

总体: 包含所有的研究的全部个体的集合。分为有限总体和无限总体。
样本:从总体中抽取一部分元素的集合。

推断性统计
t检验、回归分析、相关分析等。分为参数估计和假设检验。

第二节 正态分布

正态分布概念:联系性随机变量分布
正态分布图像及公式
特征:
1.有68.2%左右的数据分布在均值±1标准差范围内
2.有95.4%左右的数据分布在均值±2标准差范围内
3.有99.6%左右的数据分布在均值±3标准差范围内

偏度与峰度的概念:现实数据分布形态难以达到标准,会有偏移,在横坐标上的偏移为偏度,在纵坐标上的偏移是峰度。偏度主要检查对称性,主要体现为左偏和右偏。峰度用来检查数据的高低。如果数据满足偏度绝对值小于3,峰度绝对值小于8,认为满足近似正态分布。

偏度与峰度的计算

中心极限定理

中心极限定理指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该样本所在总体的分布无关。

中心极限定理适用的环境:总体的分布形态未知,或者没有理由和证据证明总体不满足正态条件都适用于中心极限定理。而如果已知总体是满足正态分布的就没有必要对样本进行正态性检验。

注:收集的数据默认正态分布

正态分布检验的方法:
1.图示法:
可以采用P-P图,Q-Q图以及正态分布直方图进行判断数据是否满足正态分布或近似正态分布。
2.计算法:
主要是K-S检验(n>50)和S-W检验(n<50)。受到样本量影响。
问卷数据一般使用图示法检验。
另外在及算法中还有比较粗略的计算方法,通过均值和标准差判断是否正态。当标准差<1/2(均值)可认为数据满足正态性。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值