1.1数据与统计学

1、什么是统计学

         一门分析数据的科学,它所提供的是收集数据处理数据分析数据的一套方法和技术,通过对数据的分析得出结论。
         

 - 收集数据
 获取所需要的数据。
 - 处理数据
 对所获得的数据进行加工和处理,以符合一进步分析的需要。
 - 数据分析
 选择**适当的统计方法**对数据进行分析。

 2、数据分析的方法

     数据分析所使用的方法大致分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。
     

 - 描述统计
 利用图表对数据进行汇总和展示,计算一些简单的统计量(如比例、比率、平均数、标准差等)。
 - 推断统计
 利用样本信息来推断总体的特征,内容包括参数估计假设检验
 参数估计利用样本信息推断所关心的总体特征。
 假设检验利用样本信息判断对总体的某个假设是否成立。
       例如:
       (1)从一批电池中随机抽取少数几块电池作为样本,测出它们的使用寿命
       (2)然后根据样本电池的平均使用寿命估计这批电池的平均使用寿命(参数估计)
       (3)检验这批电池的使用寿命是否等于某个假定值。(假设检验)

3、变量和数据

某电商的不同月份的销售额;
    股票不同时期的收盘价;
    不同学生的生活费支出;
    投掷骰子观察每次投掷的结果;
    ... ...
    电商的销售额、股票的收盘价、生活费之处、掷骰子的结果...都是变量变量的特点是不同的观察时机可能出现不同的结果。变量的观测结果就是数据

类别变量(也可称为分类变量、定性变量):取值为对象属性或类别以及区间值。如性别取值为男、女;上市公司所属的行业 制造业、金融业、...;评价为很好、好、一般、......;生活费的支出1000元以下、1000-1500元、...;

类别变量根据取值是否有序可分为无序类别变量有序类别变量。类别变量的观测结果为类别数据

数值变量(也称为定量变量)是取值为数字的变量。数值变量根据取值的不同,可以分为离散变量连续变量

截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,如2020年我国各地区的GDP。

时间序列数据是在不同时间上收集的数据,这类数据是按照时间顺序收集的,如2001-2020年我国的GDP数据。

4、数据的来源

二手数据:使用的是别人调查或实验的数据。

当已有的数据不同满足需求时,需要亲自去调查或实验。如想了解某地区家庭的收入情况,可以从该地区抽取出一个2000个家庭组成的样本,通过对这些样本的调查获取数据

总体:该地区所有的家庭。

样本:抽取的2000个家庭。

样本量:2000

概率抽样:如果该地区的每个家庭被抽中与否是完全随机的,而且每个家庭被抽中的概率是一致的,这样的抽样方法是概率抽样。

简单随机抽样:从含有N的元素的总体中抽取n个元素组成一个样本,使得总体中的每个元素都有相同的概率被抽中。


   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值