人大版统计学教材第六版学习笔记--第1、2章 导论和数据的搜集

就是这本了,南门外二手书店淘来的。共14章,不知道大学的老本儿还剩多少……
在这里插入图片描述
今天是2021.1.12,或半月,或20天,最长1个月,把这本书结束。
flag立起来了hh

2021.2.16 只更新到第6章,flag倒下了emmm

导论

统计学简单介绍

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。是一套分析数据的方法和工具,广泛应用于众多领域。
分析所用方法包含描述统计方法推断统计方法
数据分析的真正目的从数据中找出规律,从数据中寻找启发,而不是寻找支持(预设结论,然后找数据支持该结论,歪曲了数据分析的本质)。在解释分析得出的结论时,需要各领域的专业知识。

统计学提供手段,从数据中发现规律才是目的。
统计学不研究统计,统计学研究不确定性,并且十分擅长。

统计数据类型

不同类型的数据,需要采用不同的统计方法来处理和分析。

按计量尺度:分类数据、顺序数据、数值型数据

分类数据categorical data:按事物的某种属性进行划分,表现为类别。如男/女
顺序数据rank data:有序类别。如成绩的优良中差,问卷中常见的“非常同意-同意-中立-不同意-非常不同意”
数值型数据metric data:具体的数字。
前两者统称为定性数据qualitative data,数值型数据也称为定量数据quantitative data。

按收集方法:观测数据和实验数据

观测数据observational data:通过调查或观测收集到的数据。社会经济现象的统计数据(社科类)
实验数据experimental data:在实验中控制实验对象而收集到的数据。(自科类)

按与时间的关系:截面数据和时间序列数据

截面数据cross-sectional data:相同或近似相同的时间点上收集的数据。用以描述现象在某一时刻的变化情况(某一时刻的情况,个人理解去掉变化二字更合适些,一个时刻如果不跟另一个时刻做对比,变化就无从谈起吧)
时间序列数据time series data:按时间顺序收集到的数据。用以描述现象随时间变化的情况。

几个基本概念
总体和样本

总体population:包含所研究全部个体(数据)的集合。个体是集合的元素。
总体范围的确定:简单情况如一批灯泡的使用寿命,so easy~
                             复杂如新推出某产品,想知道消费者喜不喜欢。哪些人是该产品的消费者呢?(潜在消费者)
总体的范围难界定时,根据研究的目的来定义总体
有限总体与无限总体:前者范围确定,元素数目有限可数;后者元素数目无限、不可数。该区分主要为了判别抽样中每次抽取是否独立。

样本sample:从总体中抽取的一部分元素的集合(子集),样本中元素的数目叫样本量。

参数与统计量

参数parameter:描述总体特征的概括性数字度量。通常用希腊字母表示。
统计量statistic:描述样本特征的概括性数字统计量。通常用英文字母表示。

变量

变量variable:说明现象某种特征的概念。从一次观察到下一次观察结果会呈现出差别或变化。变量的具体取值就是变量值。
分类变量categorical variable:说明事物类别,值为分类数据。如变量“性别”,取值男/女。
顺序变量rank variable:说明事物有序类别,值为顺序数据。如变量“产品等级”,取值一/二/三等品。
数值型变量metric variable:说明事物数字特征,如年龄、产品产量。再细分为离散型变量discrete variable(企业数、产品数)和连续型变量continuous variable(年龄、温度)

变量/变量值的类型与统计数据类型对应

数据的搜集

数据的来源

所有的统计数据从根本上看都是来自调查或实验。
从使用者的角度,两个主要渠道:间接来源(别人调查或实验所得)直接来源(自己调查或实验所得,一手数据)

一个人的知识,不外直接经验和间接经验两部分。对我来说是间接经验的,对旁人可能是直接经验。从知识的总体来说,任何知识都不能离开直接经验(调查或实验)。

间接来源

系统外部:统计部门、政府资料、信息咨询机构、各行业协会等。
系统内部:业务资料,财会核算和分析资料等。
优点:搜集方便、成本低、易获取(研究者首先考虑并采用)
局限:数据是谁搜集的?(可信度评估)为什么目的而搜集?数据是怎样搜集的?(数据的质量评估)什么时候搜集的?(数据的时效性)
使用时多关注数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。注明出处。

可信度、数据质量、时效性

直接来源

间接数据对特定研究问题而言,针对性不够(毕竟是别人带着特定目的搜集的,不一定适用于我的问题。ps:机器学习里的“没有免费的午餐”)
直接来源:调查(调查数据)或实验(实验数据),前者主要针对社会现象(如社会学家通过搜集有关人的数据以了解人类行为)后者主要针对自然现象(如化学、医学等),但社会科学中也有大量的使用(教育学、心理学等)

这么看我们的研究也脚踩半个社会学,做问卷调查的占半壁江山也不无原因,并非以往认为的一无是处。

调查数据

数据的来源部分说到了,不管间接数据还是直接数据,本质都来源于调查或实验,差别只在是亲自收集还是旁人收集。
数据采集阶段的关键问题之一:怎么抽选出一个好的样本?要解答这个问题,就必须先回答另一个问题:满足什么要求的样本算好样本呢?从两个方面评估,一是该样本是否符合研究问题的要求。研究顾客满意度的问题,样本就应该来自该产品的用户,而非来自潜在的消费者。二是对调查费用与估计精度的权衡。费用低精度高只是我们的一厢情愿,现实只能在精度相同下选费用低的,费用一致时选精度高的。(ps:不必过分强求精度,对有些问题,放松精度要求节省调查费用也不失为不错的选择。大师我悟了~)
抽样采集数据的具体方式很多,可分为概率抽样和非概率抽样两类。

选一个好样本->什么样的是好样本(样本的评价标准:能为研究服务,成本不夸张)

概率抽样(随机抽样)

遵循随机原则进行抽样,总体中每个单位都有一定的机会被选入样本。
特点:排除了人为的主观因素(随机 ≠ \not= =随便),每个单位都有可能被选中;每个单位被选中的概率已知/可计算(不强调概率相等,相等时称为等概率抽样,不等时称为不等概率抽样);用样本估计总体时,要考虑每个样本单位的入样概率。

随机 ≠ \not= =随便,随便仍是主观的。

常用的概率抽样方式有:

  1. 简单随机抽样:从总体N个单位中随机地、一个个地抽取n个单位作为样本。每个单位入样概率相等。
    优点:简单直观,用样本统计量进行估计时比较方便。
    局限:N很大时,构造包含所有总体单位的名单并不容易;该方法抽出的单位很分散,给调查的实施增加了困难;没有用到其他辅助信息提高估计效率(初读不明觉厉,后期若明白过来补充)
  2. 分层抽样:先将抽样单位按某种特征/规则划分,在不同的层中独立、随机地抽取样本。
    优点:样本结构与总体结构相近,提高估计的精度;为实施调查提供了方便;既可以估计总体参数,也可以对各层的目标量进行估计。(毛选:中国社会各阶级的分析)
  3. 整群抽样:将总体中若干个单位合并为组,这样的组就是群。抽样时直接抽取群,然后调查抽中群中的所有单位。
    优点:N很大时也不怕,构造群的名单就可以了,工作量大大缩小;放在一个群里的单位往往集中,方便调查的实施。
    弱点:估计精度差(在同一个群里的单位多少都有些相似)样本量相同时,整群抽样误差必然大于简单随机抽样误差。要想精度一致,整群抽样就得增加样本量。
  4. 系统抽样:书上给的概念不大好理解,直接上操作方法:将总体中的所有单位按一定顺序排列,然后从数字1~k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k,…。
    优点:操作简便
    缺点:对估计量方差的估计比较困难
  5. 多阶段抽样:类似整群抽样,先抽取群,然后在选中的群中在抽取若干个单位(还可以继续下去,在抽取的若干个单位中再次抽取若干个单位……疯狂套娃)两阶段、三阶段……但阶段越多,估计误差就越大,还是能少套娃就少套娃吧
    优点:整群抽样的优点
    10:30了,准备睡觉,溜了溜了~~~最近疯狂单曲循环吹灭小山河,这天下风情千万般值得觊觎一眼…何须问生平长短应问何人相伴…歌词很美了
非概率抽样

与概率抽样相对,抽取样本时不依据随机原则。

  1. 方便抽样:由调查员依据方便的原则,自行决定入样单位。
    优点:易实施,成本低
    缺点:样本无法代表总体
  2. 判断抽样:研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本(实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式)
    优点:成本低,易操作
    缺点:主观性强,样本无法估计总体
  3. 自愿样本:被调查者自愿参加,成为样本中的一员。
    优点:得到的信息反映某类群体的一般看法
    缺点:样本有偏,无法用来估计群体,因为吸引来的都是对调查活动感兴趣的人群。

最近读过的论文中使用的基于情景的实验方法,实验对象就是研究者在亚马逊的小组中招募的,这些人应该就是自愿样本。

  1. 滚雪球抽样:首先选择一组点差单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,由研究人员进行调查。该过程持续,形成滚雪球效应。
    优点:适用于对稀少群体的调查,容易找到特定群体,调查成本低
  2. 配额抽样:类似于概率抽样中的分层抽样。先将总体中的所有单位分类,在每一类中采用方便抽样或判断抽样选取样本。
    优点:操作简单;样本结构与总体结构类似
概率抽样与非概率抽样的比较

非概率抽样
优点:操作简便、时效快、成本低、对统计学专业技术要求不是很高。
缺点:样本无法用于估计总体。
适合探索性的研究

概率抽样
优点:样本可以用来估计总体。
缺点:技术含量高、对统计学专业知识要求较高、调查成本也更高。
适合目的旨在掌握研究对象总体的数量特征的研究

前者应用于认识的感性阶段,后者应用于理性认识的阶段,个人见解。

搜集数据的基本方法
  1. 自填式:没有调查员协助,被调查者自行完成问卷。
    优点:成本低,可以轻松增大样本量;管理起来相对容易;减少被调查者回答敏感问题的压力。
    弱点:问卷回收率较低;不适合结构复杂的问卷;调查周期长;发现问题后难以及时调整。
  2. 面访式:face2face,问答形式。
    优点:可以提高回答率;提高调查数据的质量;调查时间可控。
    弱点:成本高,很难扩大样本量;对调查过程的质量难以控制;敏感问题的回答不如自填式放松。
  3. 电话式
    优点:速度快;样本分散时不用支付交通费,成本低;调查过程的质量可以控制。
    弱点:被调查者没有电话的情况;电话访问时间不能太长;问卷要非常简单。
  4. 观察式:调查人员通过直接观测的方法获取信息(作家们应该都很擅长吧)
    搜集方法的选择:综合考虑,组合使用
项目自填式面访式电话式
调查时间中等
调查费用
问卷难度要求容易可以复杂要求容易
有形辅助物的使用(如产品的样品)中等利用充分利用无法利用
调查过程控制简单复杂容易
调查员作用的发挥无法发挥充分发挥一般发挥
回答率最低较高一般
实验数据

实验数据experiment data指在实验中控制实验对象而搜集到的变量的数据。在实验中控制一个或多个变量,在有控制的条件下得到观测结果。
实验是检验变量间因果关系的一种方法。

实验组和对照组

实验既是搜集数据的一种方式,又是一种研究方法。
实验法的基本逻辑:有意识地改变某个变量A的情况,然后看另一个变量B变化的情况。如果B随着A的变化而变化,就说明A对B有影响。
所以,需要将研究对象划分为实验组experiment group和对照组control group两组,前者中每个单位接受某种特别的处理,后者则不接受实验组成员所接受的某种特别的处理。

实验中的若干问题

实验法逻辑严密,可以较好地证明假设,分析事物因果关系。但也会面临一些问题:

  1. 人的意愿:人不一定会按照研究者的要求和布置行事。人不受控。
  2. 心理问题:人在知道自己正在被研究或观察时,行为本身就会偏离。

海森堡的“测不准原理”认为微观物理现象不可能在未被干扰的情况下被测量和观察,一旦进行测量,参与观察的人和测量的仪器就会对该粒子发生作用,即干扰,而且这种干扰处于决定性的地位。也就是说,当观察者进行观察时,他的观察、记录、测量这些行为本身就会影响观察的结果。人正像微观世界的粒子一样,不可观测、不可记录。

  1. 道德问题:不必多说

数据的误差

数据的误差指通过调查搜集到的数据与研究对象真实结果之间的差异。可分为抽样误差和非抽样误差。

抽样误差

由抽样的随机性引起的样本结果与总体真值之间的误差。并不是某个具体样本的检测结果与总体真实结果的差异,而是所有样本可能的结果与总体真值之间的平均差异。只存在于概率抽样中。
抽样误差的影响因素:样本量大小(样本量越大,抽样误差越小)总体的变异性(总体内各单位的差异越大,抽样误差就越大)
控制方法:抽样误差不可避免但可以计算,根据精度的要求,计算所需样本量。

非抽样误差

指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。无论概率抽样、非概率抽样都有可能产生。

  1. 抽样框误差:有关总体全部单位的名录不完善。
  2. 回答误差:被调查者的回答与真实情况不符(理解误差;记忆误差;有意识误差)
  3. 无回答误差:被调查者拒绝接受调查。又是是随机的,有时是系统性的。
  4. 调查员误差:粗心、表情、语气等。
  5. 测量误差:与测量工具有关的误差。

控制方法:调查过程的质量控制;调查员的挑选、培训,督导员的专业对平,对调查结果的检验和评估等。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值