1.描述样本数据离中趋势的指标是标准差
2.对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。对应分析法可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
对应分析不可以反映指标之间的关系 。
样本量的估计可以使用以下公式:
n = ((Z * σ) / E)²
其中,
n 为样本量,
Z 为指定置信水平下的 Z 值(对于置信水平 95%,Z 值约为 1.96),
σ 为总体方差,
E 为所要求的绝对误差限。
根据给定的条件,将值代入公式进行计算:
n = ((1.96 * √400) / 5)²
计算得出:
n ≈ (1.96 * 20 / 5)²
因为样本量必须为整数,所以取最接近的整数值,样本量为 64。
7.在因子分析中公共因子的方差贡献可以反映公共因子的相对重要性
公共因子的方差贡献率越高,说明该因子对数据的解释程度越高,也就是说,该因子能够更好地反映数据的结构和关系。 因此,在因子分析中,我们通常会优先选择方差贡献率较高的公共因子,以便更好地理解数据的结构和关系。
8. 调查问卷的选项需遵循的基本原则是互不包含性
9.某小学欲调查学生的身高,若护士将学生的身高绘制成次数分配图,一般而言以直方图形较佳(次数即频数,所以直方图更方便)
10.有限总体的概率抽样方案已确定时,下列选项中属于随机变量的是( )。
A样本容量 B估计量方差 C样本估计量 D总体参数
所谓概率抽样,是指按照一定的概率从构成总体的所有单元中随机选择一部分单元进入样本的抽样方法。常见的有简单随机抽样 、分层抽样 、整群抽样 、系统抽样以及多级抽样这五种概率抽样方法。
11.置信区间
区间估计是将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为总体参数的置信区间。其中置信度一般记为1-α,其中α为检验水准,由研究者决定,一般取值为0.05。置信区间由上下两个置信限构成,其中较小的数值称为置信下限,而较大的数值则称为置信上限。置信区间是个开区间,不包括上下两个置信限的数值。
- 点估计和区间估计,都不知道哪个点或者哪个区间更好
- 但是,按照95%置信区间构造出来的区间,如果构造出100个这样的区间,其中大约有95个会包含μ
这就好像用渔网捞鱼,知道一百次网下去,可能会有95次网到想要的鱼,但是并不知道是不是现在这一网。
确定适当的置信水平和样本大小,以保证所得的区间估计具有一定的可靠性。
12. 简单随机抽样又称为纯随机抽样
13.数据的类型:
一、分类数据:它是对事物进行分类的结果,数据表现为类别,是用文字来描述的。例如:
(1)人口按性别分为男、女两类;
(2)企业按行业属性分为医药企业、家电企业、纺织品企业等;
为了便于统计处理,对于分类数据可以用数字代码来表示各个类别
二、 顺序数据:是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。比如:
(1)将产品分为一等品、二等品、三等品、次品等;
(2)考试成绩可以分为优、良、中、及格、不及格等;
同样,顺序数据也可以用数字代码来表示,比如:
1—非常同意、2—同意、3—保持中立、4—不同意、5—非常不同意,等;
三、数值型数据:是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。
14.分类数据的整理与展示包括:分类、计算频数与频率、绘制条形图、Pareto 图或饼图
15.市场调查在产品的投入期的主要作用是确认需求
16.大总体的规模(超过2000)对样本容量确定几乎没有影响
17.某居民区共有 50 000 户,2011 年初用简单随机抽样抽选了 900户进行调查。根据样本数据计算得 2010 年平均每户年用水量为 100立方米,方差为 22500,则以 95%的置信度估计的该居民区平均每户年用水量的置信区间为多少?
要计算该居民区平均每户年用水量的置信区间,我们可以使用样本均值和样本方差来进行估计。给定样本均值为 100 立方米和方差为 22500,以及样本容量为 900,使用95%的置信度,我们可以采用正态分布的方法进行计算。
首先,我们需要计算标准误差。标准误差是用来估计平均数的标准偏差,它的计算方法为样本标准差除以样本容量的平方根。在这里,标准误差(SE)为:
SE = sqrt(方差 / 样本容量) = sqrt(22500 / 900) ≈ 5
接下来,我们需要计算置信区间的边界。根据正态分布的性质,我们可以使用样本均值加减一个适当的数值来计算置信区间。
置信区间的计算方法为:
置信区间 = 样本均值 ± (临界值 * 标准误差)
对于一个95%的置信度,临界值为 1.96(根据标准正态分布)。因此,置信区间为:
置信区间 = 100 ± (1.96 * 5)
计算得出置信区间为 (90.2,109.8) 立方米。
所以,以 95%的置信度估计的该居民区平均每户年用水量的置信区间为 (90.2,109.8) 立方米。
18.假定一个拥有一亿人口的大国和百万人口的小国人口的居民年龄的差异程度相同,现在各自用重复的抽样方法抽取本国的 1%人口计算平均年龄,则平均年龄抽样标准误差前者比后者小。
19.需要进行假设检验的原因是由于存在抽样误差。
实际上原因就在于抽样 (sampling)的问题。. 如果我们不抽样,直接比较总体,那就无需做假设检验。. 假设检验都是对样本做的,目的是通过样本推理总体。
20.不能反映数据离中趋势的是平均数
描述数据集的整体情况,会用到以下几个指标:
集中趋势的量度:平均值、中位数、众数
离中趋势的量度:四分位数、标准差、标准分、全距、平均差