第一节
一手数据采集中的概率抽样和非概率抽样的主要区别与优缺点如下:
区别:
1. 概率抽样是基于随机抽样理论,每个样本被抽中的概率是可计算的。非概率抽样是主观抽样,样本被抽中的概率无法确定。
2. 概率抽样包括简单随机抽样、系统抽样、分层抽样、整群抽样等。非概率抽样包括方便抽样、判断抽样、配额抽样等。
优点:
概率抽样:
- 代表性强,抽样误差可计算,推断总体参数时偏差较小。
非概率抽样:
- 操作方便,经济实用,可根据项目需求决定样本。
缺点:
概率抽样:
- 实现随机抽样不易,操作复杂,成本较高。
非概率抽样:
- 代表性较弱,推断误差大,结论易受偏见影响。
结论:
概率抽样可靠性高,非概率抽样实用性强。需根据调研类型、样本需求、成本等因素选择合适的抽样方法。
题目
因为目前都已知存在数据了,所以不会是抽样调查。因此选择非抽样调查。
用户活跃度肯定是一段时间活跃的情况,比较复杂,所以不做日志记录。
一般来说调查都是平均去调查,因此占比应该都差不多。比如15/300大概等于120/2000;
补充:一般来说调查一个人的成本起码50元往上。
第二节
题目
一般事前编码是事前准备好的问题,所以应该是封闭式问题。
多选题信息量肯定比单选题大。但是多选题的质量不高,加上统计比较麻烦,因此选择D。
因为是是否购买,所以二分类是最好的。
A,市场需求。
第三节
题目
一般离中趋势的指标有标准差、变异系数、平均数;集中趋势有中位数、均值、众数。
选C。主要看分布趋势。
直方图。单维度观察为连续变量,应优先用直方图。
交叉数据用于交叉验证,不属于脏数据。
也可以用小数据。
第四节
概率抽样分类:简单随机抽样(样本少可以用)、分层抽样(一般常用,按照重要程度,等数分配法或者等比分配法)、系统抽样(基本不用)、多段抽样(按照不同层级)。
非概率抽样:
1、偶遇抽样
选择对象一般为人。特点任意、方便、随意,但是偶遇抽样不等于随机抽样。
2、判断抽样
觉得什么重要主要抽什么。特点:典型、主观,受主观影响大。
3、定额抽样
总体通过某一个标准进行分层抽样,一般与其他抽样方法配合。
4、滚雪球抽样
先找少量、个别调查对象进行访问,再根据这个寻找新的调查对象,最终达到调查目的。
5、空间抽样
对非静止的、暂时性的空间相邻的群体的抽样方法。例如,游行与集会没有确定的总体,参加者从一地到另一地,一些人离去又有一些人进来,但这些事件是在一定范围内进行的。对这样的总体在同一时间内抽样十分重要,以便样本组成不会经历时间上的太大变化。
题目
A
A
A
D
做对数。