CDA Level Ⅱ 模拟题（二）

最新推荐文章于 2024-04-25 14:01:21 发布

原创最新推荐文章于 2024-04-25 14:01:21 发布 · 4.4k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#CDA #大数据

CDA Level 专栏收录该内容

11 篇文章

订阅专栏

文章介绍了回归分析中的线性回归模型，包括线性回归的检验、系数解释以及共线性问题。此外，还提到了主成分分析、因子分析在数据简化中的应用，以及聚类方法如K-Means的原理和应用场景。逻辑回归用于分类问题，时间序列分析关注趋势和季节性，而相关性和异常值的处理在数据分析中也十分重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

练习题【单选题】1/20
一项针对全国25-35岁用户群的手机喜好调查，但调研项目经费大概是10万元，并且用户群相对集中在中国中部城市。前期预调研显示，用户群的数值方差和调研费用不等。以下哪种情况是比较适宜的调查方式？
A.简单随机抽样（全国抽样→选择样本）
B.分层随机抽样（东中西城市分层→对层内进行分群→再选择样本）
C.分群抽样（全国城市分群抽样→再选择样本）
D.多阶段抽样（全国城市分层→重点城市分群→再选中城市中分层→再选择样本）
D
暂无答案解析

2/20
Cochran于1977年提出变量百分比的样本量的近似公式：
$n=(1-\frac{n}{N})\cdot \frac{t^2(p \cdot q)}{d^2}$
说法不正确的是
A.（1-n/N）是有限总体纠正因子
B.d是置信区间
C.p*q是方差
D.t是误差概率

3/20
市场调查资料加工整理技术的选择决定了调查的最终效果。调查资料编码技术就是比较重要的一项技术，编码分事前编码与事后编码，请问事前编码更适用于下面哪种问题？（）
A.开放式问题
B.封闭式问题
C.随机问题
D.情感问题

B
为了方便计算机处理，在设计问卷时就预先给这些答案设计了编码，这种编码方式称为事前编码。如果字符变量的取值范围是不确定、开放式的，那么就不能进行转化和简化。所以事前编码通常应⽤用于封闭性问题，也就是答案范围确定的问题。因此本题选B

4/20
下图是两个多选题的编码方式，请问右侧编码的最重要的优点是什么？

A.提供选择的题项及个数信息。
B.提供选择的题项信息。
C.提供选择的题项及程度信息。
D.提供选择的题项个数信息。
C 暂无答案解析

5/20
选择题是设计市场调查问卷时常用的题目类型，关于多选题和单选题的优缺点，以下说法不正确的是？
A.多选题相比单选题提供的信息量大。
B.单选题提供的信息量相对较少，但比较便于后期编码和统计分析。
C.单选题和多选题可以同时放在一张问卷中。
D.一般尽量使用多选题，因为提供的信息量多，信效度分析和统计分析比较容易。

单选题是市场调研问卷中最简单、易回答的问题，也是我们最容易进行录入和分析的问题。相比单选题而言，多选题会复杂一些。可以是限定个数的多选题，也可以是由答题者自己决定数量的多选题。由于现在的研究趋势，通常是把选项用数字化代替进行录入，因此在设计多项选择题的时候，应当更加谨慎。尽可能地用单选题替代。因此本题选D

6/20
在进行随机抽样时由于某些原因会产生抽样误差，以下关于抽样误差的说法，正确的是
A.抽样误差是随机抽样调查中偶然发生的代表性误差
B.抽样误差的大小同样本单位数成正比关系
C.简单随机抽样比分层、分群抽样误差大
D.重复抽样比不重复抽样误差小
A
抽样误差是指由于抽样的随机性带来的偶然的代表性误差，选项A正确；样本单位数目越多，抽样误差越小，反之则大，选项B错误；一般来说，分层抽样误差相对简单随机抽样、分群抽样误差较小，选项C错误；在同等条件下，重复抽样比不重复抽样误差大，选项D错误。

7/20
数据分析中常常用可视化的方式展示数据中蕴含的信息，数据可视化的核心是：用合适的图展示合适的数据。现需要反映数据间比例关系，需使用哪种图表（）？
A.旭日图
B.散点图
C.热力图
D.气泡图
A选项A中旭日图是一种现代饼图，以父子层次结构来显示数据构成情况; 选项B中散点图主要用于表示因变量随自变量而变化的大致趋势；选项C中热力图以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域；选项D中气泡图用于展示三个变量间的相关关系。

8/20
现有一组数值型数据，查看数据的分布情况，优先使用以下哪种图形（）
A.条形图
B.直方图
C.散点图
D.折线图
B选项A中条形图用于显示各个项目之间的比较情况；选项B中直方图由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型，纵轴表示分布情况；选项C中散点图表示因变量随自变量而变化的大致趋势；选项D中折线图用于展示数据随时间或有序类别的波动情况的趋势变化。

9/20
数据在真正被使用前需进行必要的清洗，使脏数据变为可用数据。下列不属于“脏数据”的是（）
A.重复数据
B.错误数据
C.交叉数据
D.缺失数据
C交叉数据是指如果两个表中的数据需要频繁连接，可以使用连接标准将数据物理交叉到相同的物理存储结构。交叉数据可以看作是一种特殊形式的集群，不属于“脏数据”，因此本题选C

10/20
数据清洗包括处理缺失值、异常值、重复值等脏数据，处理每种脏数据的方法也是多种多样。以下哪些处理方式可以用来处理缺失值？
① 用均值填充
② 转换为哑变量（0,1），代表数据是否缺失
③ 使用回归模型去预测缺失值
A.①②③
B.②③
C.①③
D.①②
A常见处理缺失值的方法有：1.用单一值填充；2.把缺失值当做一类；3. 建立模型进行预测，4. 多重插补，①②③都符合，本题选A

11/20
业务数据中因为某些原因可能存在异常值，现要通过可视化的方式查找某字段数据中的异常值，优先使用以下哪种图形（）？
A.箱形图
B.甘特图
C.雷达图
D.K线图
A箱线图以四分位数和四分位距为基础，能快速将小于Q1-1.5QR或大于Q3+1.5QR的数据识别为异常值，因此本题选A

12/20
业务系统往往因为系统故障、设备故障、人为失误等原因导致数据中存在异常数据，下列哪一项方法对于发现异常值有帮助（）
A.减去均值，并除以标准差
B.梯度下降法
C.相关性分析
D.归一化处理
A异常值检测常见的方法有Numeric Outlier、Z-Score、DBSCA及Isolation Forest，其中Z-Score的做法是将数据减去均值，并除以标准差，Z值表示样本偏离平均水平的程度，因此本题选A

13/20
企业数据分为：元数据、主数据、参考数据等分类，下面属于参考数据的是？
A.客户等级分为A,B,C
B.电信行业的数据接入率
C.电信行业的通话记录
D.数据表中字段描述
A参考数据是增加数据可读性、可维护性以及后续应用的重要数据。 A选项客户等级分A、B、C是数据取值的范围，属于参考数据 B选项属于电信行业业务实体数据，归为主数据 C选项通话记录属于业务数据也可以称为主数据。 D选项字段描述表示数据的定义，属于元数据。因此只有A选项符合题意

14/20
下面关于第三范式关系必须符合的条件，说法错误的是？
A.每个属性的值唯一
B.每个非主属性必须完全依赖于整个主键
C.其他关系的属性需要依赖于主键
D.每个非主属性不能依赖于其他关系中的属性
C暂无答案解析

15/20
企业数据仓库里面的数据一般是由业务数据经过ETL技术处理后来的，以下关于ETL的说法错误的是（）
A.ETL过程中的主要环节是数据抽取、数据转换和加工、数据流转
B.增量数据抽取过程中，提取增量数据的方法有通过时间戳、建立触发器、全表比对、日志比对等
C.常用ETL工具包括datastage，Informatica等
D.数据清洗需要对维度表中的重复数据进行处理
A
A: ETL是Extract-Transform-Load的缩写，数据抽取（Extract）、转换（Transform）、装载（Load）的过程。数据流转不属于ETL的主要环节。所以A错误 B: 增量数据ETL中捕获数据变化的方法有：触发器方式、时间戳方式、全表删除插入方式、全表比对方式、日志表方式、系统日志分析方式等。 C：datastage，Informatica属于常见的ETL工具，除此之外Spark等通用计算引擎也可用于ETL开发。 D：数据清洗中需要删除无用的重复数据，维度表中的重复维度就是需要删除的。

16/20
标签系统有许多分类，从实现规则上可以分为三类：基于统计类的、基于规则类的、基于挖掘技术的，下面对于标签的分类错误的是（）
A.APP的使用时长属于基于规则的标签
B.“交易活越”标签属于基于规则的标签
C.通过使用预测类算法模型生成的标签属于基于挖掘类的标签
D.月均消费金额属于统计类的标签
A
1）基于统计类的标签顾名思义，这类标签是可以从用户注册、用户访问、消费类数据中统计得出，是最为基础的标签类型，例如：性别、城市、App 使用时长、周均启动次数、月均消费金额等 2）基于规则类的标签该类标签基于用户行为及确定的规则产生，在实际开发标签过程中，该类标签的规则由运营人员和数据人员共同协商确定。如：距今 90 天内交易次数 > 3，是“交易活跃”标签的定义和口径；连续 12 个月内飞行航段 > 20 ，是“常旅客”标签的定义和口径。 3）基于挖掘类的标签该类标签为概率模型，概率是介于 0~1 之间的数值，需要通过算法挖掘产生。例如：根据一个用户的行为习惯判断用户是否会购买某商品

17/20
数据分析师在工作中常常会涉及两个概念：标签、指标，下面关于标签与指标的描述正确的是（）？
A.指标通常可以量化，但是标签一般是不可量化的
B.标签是用来定义、评价和描述特定事物的一种标准或方式
C.指标是人为设定的、根据业务场景需求，对目标对象运用一定的算法得到的高度精炼的特征标识
D.指标与标签的应用场景基本一致
A
指标与标签概念不同指标是用来定义、评价和描述特定事物的一种标准或方式；比如：新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标。 B错误标签是人为设定的、根据业务场景需求，对目标对象运用一定的算法得到的高度精炼的特征标识。C错误指标通常可以量化，例如体重就可以是指标 200斤就是可量化的值。对于体重用标签来表示可以为“大胖子” “瘦子”等标签是不可量化的。所以A正确二者应用场景也不相同指标的应用场景很多，涉及企业的战略、管理、运营和支撑等层面；具体包括：战略目标、市场定位、业务监测、业绩考核、任务分解、数据分析、数据建模、BI应用等。标签的应用场景主要集中于CRM领域，尤其适合于用户运营。比如：客户画像、新增获客、沉默用户激活、存量客户维系、数据建模、数据可视化等。

18/20
数据标签化是企业数据分析的基础工作，关于企业对数据进行标签化的目的错误的是（）
A.精细化运营
B.用户分析
C.精准营销
D.减少数据占用的存储空间
D企业数据标签化主要是为了后期业务系统能快速的应用数据，例如在精细化运营、用户画像分析（用户分析）、精准营销等方面，而不是为了减少数据占用的存储空间，因此选择D

19/20
RFM是很传统的数据分析模型，下面关于RFM模型的描述错误的是（）
A.RFM是一种从交易数据反推用户价值的方法，因此可行性非常高！
B.使用RFM前需要确认数据中用户ID的一致性
C.数据中只需含有用户ID、消费金额、消费日期这三个字段即可使用RFM模型进行用户分层,无需考虑用户ID是否统一。
D.RFM适合在数据匮乏的情况下使用
C
RFM的真正意义在于：这是一种从交易数据反推用户价值的方法，因此可行性非常高！ RFM最大的短板，在于用户ID统一认证；不要小看这几个字，在相当多的企业里非常难实现。因此C错误 RMF模型只需有用户ID、消费金额、消费日期这三个数据即可计算，在数据字段比较少的情况下也可以使用。

20/20
用户画像是互联网企业常用的技术手段，通过对用户进行画像来实现精准营销等商业活动。下面关于用户画像的说法错误的是（）
A.用户画像具有动态性
B.用户画像具有时效性
C.用户标签必须描述客观的事实
D.用户画像本质上是用户数据标签化
用户画像本质上是将用户数据标签化。用户画像是具有动态性与时效性的，同一用户不同的阶段、不同的时间标签是不一样的。比如是否购买过某商品的标签会因为用户的消费行为产生变化。有些用户标签是基于业务经验打上的，有很强的主观性，不一定是客观事实，因此选则C选项。

练习题【单选题】1/20
ABtest是运营人员、产品经理等经常使用的工具，下面关于AB实验中最小样本量的描述正确的是（）
A.预期提升比例越大，最小样本量越小
B.样本方差越大，最小样本量越小
C.选取α值越大，最小样本量越小
D.选取β值越小，最小样本量越小
A
检验方案实施后的总体B是否相对实施前的总体A有显著提升。预期提升比例的计算为 $(μB−μA)/μA(\mu_B-\mu_A)/\mu_A$ ，显然此比例越大越说明B比A有显著差异，则只需越少的样本就能得出显著的结论

2/20
若x1、x2、x3取自某总体的样本，当期望a已知，方差c未知时，则以下不是统计量的是
A.x1×x2×x3
B.min{x1，x2，x3}
C.a+(x1+x2)/2
D.(x1+x2+x3)/c
D统计量是不含任何未知参数的，D项中有未知参数c

3/20
X为服从正态分布的随机变量N(2, 9), 如果P(X>c)=P(X
A.3
B.2
C.9
D.2/3
正态分布密度曲线关于均值m对称，m是正态分布的中心。也就是说：均值两侧发生的概率相等。

练习题【单选题】4/20
抽样是统计分析中常用的技术手段，现有一抽样的描述：“将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其它样本单位”，这种抽样方法称为（）
A.多阶段抽样
B.分层随机抽样
C.集群抽样
D.系统抽样
D题干阐述了系统抽样的操作步骤。分层抽样法是从一个可以分成不同子总体（或称为层）的总体中，按规定的比例从不同层中随机抽取样品（个体）的方法。多阶段抽样是先将一个很大的总体划分为若干个子总体，即一阶单位，再把一阶单位划分为若干个更小的单位，称为二阶单位，照此继续下去划分出更小的单位，依次称为三阶单位、四阶单位等。然后分别按随机原则逐阶段抽样。集群抽样是指将总体按某种特质分成若干份，每一份成为一个团体，再以随机方式抽取若干团体，然后把这些团体中的全部单位选择作为样本的一种抽样方式。

5/20
一个手机电池制造商声称，其生产的电池一次充电后正常条件下使用时长为20小时，对一个由15个电池组成的随机样本作了试验，测得平均值使用时间为25小时，标准差为5小时。已知电池的使用时长服从正态分布，则检验该电池与厂商声称的标准是否相符，我们应该选择
A.双侧t检验
B.单侧t检验
C.单侧F检验
D.双侧F检验
A
这是一个假设检验的问题。电池使用时长服从正态分布，待检验的原假设H0：m=20,说明是双侧检验问题；又由于总体方差s是未知的，故采用t检验

6/20
置信区间是统计学中常用的概念，一个95%的置信区间的含义是：
A.在用同样方法构造的总体参数的多个区间中，有95%的区间不包含该总体参数
B.总部个体参数有5%的概率未落在这一区间内
C.总体参数有95%的概率落在这一区间内
D.在用同样方法构造的总体参数的多个区间中，有95%的区间包含该总体参数
D
一个95%的置信区间的含义是指在用同样方法构造的总体参数的多个区间中，有95%的区间包含该总体参数

7/20
假设检验是统计学中重要的方法，用来判断样本与样本、样本与总体的差异。假设检验的基本思想可以用（）来解释
A.中心极限定理
B.小概率事件
C.置信区间
D.正态分布的性质
B假设检验的基本思想：假设样本是从原总体中抽取的,在此假设下构造一个小概率事件。若假设成立,则小概率事件一般是不会发生的,但在一次抽样中，如果小概率事件发生了，则拒绝接受这个假设。

8/20
在列联表分析中，下列不能用卡方检验的是（）
A.多个构成的比较
B.多个率的比较
C.多个均值的比较
D.以上都不是
C卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验。两个及两个以上样本均数的比较是用方差分析。

9/20
在样本量给定的条件下，假设检验中当第一类错误减小时，第二类错误怎么变化？
A.必然增大
B.必然减小
C.不变
D.不确定
A在样本量给定的条件下，第一类错误与第二类错误中一个减小必导致另一个增大。

10/20
在假设检验问题中，原假设为H0 ，给定显著水平为α，则正确的是
A.p(接受H0 | H0 正确)=α
B.p（接受H0 | H0 不正确）=1-α
C.p（拒绝H0 | H0 正确）=α
D.p（拒绝H0 | H0 不正确）=1－α
C显著性水平就是表示原假设为真时，拒绝原假设的概率

11/20
方差分析是统计学中常用知识，下列关于方差分析的说法不正确的是
A.方差分析是一种检验若干个正态分布的均值和方差是否相等的一种统计方法
B.方差分析是一种检验若干个独立正态总体均值是否相等的一种统计方法
C.方差分析实际上是一种F检验
D.方差分析基于偏差平方和的分解和比较
A方差分析是一种检验若干个独立正态总体均值是否相等的一种统计方法，不能用于检验方差是否相等。

12/20
下面是一个方差分析表：

差异源	SS	df	MS	F
组间	30	B	C	E
组内	A	20	D
总计	70	25

表中A，B，C，D，E五个单元格内的数据分别是（）。
A.40，5，35，60，1.71
B.40，5，35，60，5
C.40，5，6，2，3
D.2.33，1.25，31.25，22.33，1.40
C方差分析中：组内误差平方和+组间误差平方和=总误差平方和；组内自由度+组间自由度=总自由度，F值=组内均方误差/组间均方误差

13/20
为了比较两个总体方差，我们通常检验两个总体的
A.方差差
B.方差比
C.方差乘积
D.方差和
B比较两个总体方差时，通常采用检验两个总体方差比的F检验

14/20
关于下表，错误说法是（）
方差分析

差异源	SS	df	MS	F	P-value	F crit
组间	0.245	1	0.245	0.12	0.729793	3.940163
组内	196	96	2.041667

总计	196.245	97

A.这是单因素方差分析的输出结果
B.表中 F< F crit, 与 P-value 大于显著性水平是等价的
C.表内组间均方差没有显著大于组内均方差
D.由于组内SS数值显著大于组间SS，因此可以推断不同分类对于数值变量是有显著影响的
D在该问题的方差分析中，如果检验得到的p值=0.729793>显著性水平a，则说明比较的两样本均值没有显著差异，反之，存在显著性差异。另外，F值与某显著性水平下拒绝原假设的临界值作比较，也可以判定显著与否。

15/20
关于单因素方差分析，下列说法不正确的是
A.组间平方和只包含系统误差
B.组内平方和只包含随机误差
C.如果组间均方远大于组内均方，那么就说明不同水平之间均值存在着显著差异。
D.如果组间均方远大于组内均方，那么就说明分类变量对于数值变量有显著影响。
A组间误差包括效应间差异和随机误差，故A项错误；

16/20
某一特定的X水平上，总体Y分布的离散度越大，即σ2越大，则
A.预测区间越宽，精度越低
B.预测区间越宽，预测误差越小
C.预测区间越窄，精度越高
D.预测区间越窄，预测误差越大
A在题干的条件下，方差越大，计算得到的预测区间(置信区间)越宽，精度越低，预测误差越大。

17/20
根据最小二乘法，拟合回归直线方程要使得（）
A.Σ(yᵢ-ŷᵢ)取得最小
B.Σ(yᵢ-ŷᵢ)²取得最小
C.Σ(yᵢ-ӯᵢ)取得最小
D.Σ(yᵢ-ӯᵢ)²取得最小
B最小二乘法原理是求使得离差平方和最小的参数，这里的离差就是真实值与预测值的偏差。

18/20
关于一元线性回归的求解过程说法正确的是？
A.一元线性回归只需要求解出两个系数即可
B.对于新来的样例，建立好的一元线性回归模型可以做出准确的预测
C.一元线性回归模型的基本形式是Y=Ax+e，其中A为系数，e为随机误差
D.一元线性回归模型的估计系数是对应真实值的有偏估计
B.回归模型只是根据已有数据总结出了其中包含的线性关系，然后对于新样本进行预测，A但是预测值与真实值之间可能是存在差异的； C.一元线性回归模型的基本形式一般是包含常数项的； D.回归模型中的估计系数是对应真实系数的无偏估计

19/20
现在通过参数估计得到一个一元线性回归模型为
y = 3x + 4
在回归系数检验中下列说法错误的是（）
A.检验统计量是t统计量
B.原假设是β1=3
C.若拒绝原假设，就认为自变量与因变量存在显著的线性关系
D.可以用P值与显著性水平比较结果判断是否拒绝原假设
B原假设应该是β1=0

20/20
关于相关分析中应注意的问题，下面说法错误的是？
A.两变量间有线性关系存在，不一定有因果关系；
B.两变量间有因果关系存在，不一定有线性关系；
C.相关分析可以通过绘制散点图来观察；
D.相关分析两变量的顺序可互换；
B两变量间有相关关系存在，不一定有线性关系。

1/20
在业务上常常需要分析两个变量之间的相关性并根据结果来制定后续的计划，度量两个连续变量的相关性可以用以下哪种指标（）？
A.皮尔逊相关系数
B.斯皮尔曼相关系数
C.肯德尔曼相关系数
D.以上都可以
A相关性的度量方法：两个连续变量使用皮尔逊相关；两个顺序性变量使用斯皮尔曼相关系数；一个连续性变量一个顺序性变量使用肯德尔曼相关系数

2/20
销量（Y，台）与单位产品价格（X，元/台）之间的回归方程为Y=356-1.5X，这说明
A.价格每增加一元，销量增加356台
B.价格每增加一元，销量增加1.5台
C.价格每增加一元，销量平均增加356台
D.价格每增加一元，销量平均减少1.5台
一元线性回归的系数表示自变量每增加一个单位，因变量的平均变化情况。

3/20
根据模型假设，线性回归模型中误差项的方差为
A.常数
B.函数
C.随机变量
D.以上都不是
A线性回归模型的误差项是服从均值为0，方差为 $σ2\sigma^2$ 的正态分布

4/20
线性回归模型中误差项的数学期望为
A.0
B.1
C.2
D.3
A线性回归模型的误差项是服从均值为0，方差为 $σ2\sigma^2$ 的正态分布

5/20
线性回归模型 $y=a+bx+εy=a+bx+\varepsilon$ ,中的是
A.因变量
B.自变量
C.误差项
D.回归系数
线性回归模型的误差 $ε\varepsilon$ 项用表示随机误差项

6/20
主成分分析中，主成分的方差具有的特征是？
A.依次递增
B.依次递减
C.大小相等
D.先变大后变小
B各主成分的方差就是协方差矩阵的特征值，统计软件会按从大到小的顺序排列。详见《统计学习方法》16.1.3节

7/20
在实际应用中，若研究单个指标的方差对结果的影响，在做主成分析的时候应该选择使用（）
A.协方差矩阵
B.相关系数矩阵
C.关联矩阵
D.其余三者皆可
A各主成分方差之和等于所有变量x的方差之和，因此用协方差矩阵可以得到指标的方差，从而继续后续分析

8/20
实际应用中，关于主成分数量K的取值，下列说法错误的是（）
A.可以基于碎石图进行判断
B.特征根从大到小排序，通常要求前 K 个特征根都大于 1
C.通常要求 K 个主成分的累积方差比超过 80%
D.各个主成分之间的方向夹角需要尽可能的小
D各主成分之间的夹角是固定的，都是正交的

9/20
主成分是常用的数据挖掘算法，下面对于主成分分析叙述错误的是（）
A.主成分分析是一种降维的方法
B.最初是由K.皮尔森（Karl Pearson）对非随机变量引入的
C.是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量
D.主成分分析设法将原来变量重新组合成一组新的、彼此相关的的几个综合变量
D选项应为彼此不相关。详细推导见《统计学习方法》16.1.2节。B项：因为图像通常容量大，特征维度也大，采用PCA算法可以压缩图像数据集的特征空间，并极大程度第保留有效特征。

10/20
对于主成分分析来说，主要关注的是（）
A.行变量和列变量两者的相关性
B.变量之间的相关性
C.行变量之间的相似性
D.维度的含义
B主成分分析使用的就是度量各变量之间相关性的协方差矩阵，故选B

11/20
关于主成分分析与因子分析的区别和联系说法正确的是？
A.每个主成分都只包含部分原始变量，这些变量代表着相应主成分的明确含义
B.每个主成分都是原始变量的线性组合，因此，各主成分之间存在一定的相关性
C.因子分析需要假设各公因子之间互不相关，特殊因子之间也不相关，公因子和特殊因子之间也不相关；但是主成分分析不需要任何假设
D.公因子和主成分都不能被很好的解释
C
A.每个主成分都是所有原始变量的线性组合，且各变量的系数大小没有明确的分界线，故很难对每个主成分的含义做出解释； B.每个主成分都是原始变量的线性组合，各主成分之间相互独立； D.因子分析中，由于使用了因子旋转技术而使得因子得到更好的解释，但是对于主成分来说却很难表示出其明确的含义

12/20
关于因子分析的KMO检验说法错误的是（）。
A.KMO统计量是取值在0和1之间
B.当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值越接近于1
C.当KMO值接近1时，表示各变量之间的偏相关系数应该很小
D.当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值越接近于0
D
KMO统计量越接近1，说明简单相关系数平方和越大于偏相关系数平方和，说明变量间的相关性越高，从而用因子分析就能更好地提出具有共同特征的因子

13/20
因子分析是一种经典的统计分析方法，关于因子分析下列说法错误的是（）。
A.因子分析是一种数据简化的技术
B.最大似然法是因子载荷矩阵的估计方法之一
C.因子旋转时采用最大方差旋转是一种正交旋转
D.因子分析中是把因子表示成各个变量的线性组合
D因子分析的假设包括：各个共同因子之间不相关，特殊因子（specific factor）之间也不相关，共同因子和特殊因子之间也不相关。

14/20
因子分析是数据分析师需要掌握的一种分析方法，下面关于因子分析，说法错误的是？
A.因子分析通过发掘隐藏在数据下的一组较少更为基本的无法观测的变量，来解释一组可观测变量的相关性
B.因子分析和主成分分析一样，都是数据降维技术
C.使用因子分析前不需要对数据进行规范化
D.因子旋转分为正交旋转和斜交旋转
C因子分析需要计算协方差或相关系数，非常容易受到异常值等等的影响，因此需要先进行规范化

15/20
因子分析技术有一定的计算步骤，以下不属于因子分析计算过程的步骤是（）
A.估计因子载荷矩阵
B.进行因子旋转
C.估计特殊因子得分
D.估计公共因子（因子得分）
C特殊因子是没有泛用性但是又对结果有影响的因子，比如博彩中的运气。这种因子一般不需要特别去计算因子得分

16/20
线性回归模型的经典假设不包含（）
A.对于固定的自变量，因变量呈正态分布
B.自变量（或残差）之间相关独立，不存在时间序列之类的关系
C.因变量与自变量之间线性相关
D.因变量的方差随自变量的不同而变化
D项不在线性回归模型的经典假设中

17/20
若对数据提供一个逻辑回归模型得到训练精度和测试精度。在数据中加入新的特征值，下列正确的选项是( )
A.训练精度总是下降
B.训练精度总是上升或不变
C.测试精度总是下降
D.测试精度总是上升或不变
B加入新的特征，若是无关的特征则精度不变，若是相关的特征则精度上升

18/20
评价多元线性回归模型拟合程度时，主要根据（）的数值
A.修正 $R^2$
B. $R^2$
C.SSE
D.SSR
$R^2$ 可用来度量在Y的总变差中，能被X所解释的部分所占的比例，即可度量模型的拟合程度。但是多元回归中 $R^2$ 会随自变量个数的增加而被虚高，为了过滤掉这些虚高应使用修正 $R^2$ 。具体推导可见《计量经济学导论》6.3节

19/20
逻辑回归中，若选0.5作为阈值区分正负样本，其决策平面是（）
A.wx+b＝ 0
B.wx+b＝ 1
C.wx+b＝ -1
D.wx+b＝ 2
直接考虑逻辑回归的公式，令P=0.5，可解得wx+b=0。详见《统计学习方法》6.1.2节

20/20
逻辑回归的输出概率在[0,1]的范围内。逻辑回归使用以下哪个函数来实现概率转换？
A.Sigmoid
B.求模
C.平方
D.几率单位
A形如 $1/(1+e^{-x})$ 的函数，叫sigmoid函数。显然逻辑回归就是使用的这个函数进行的概率转换形如 $1/(1+e^{-x})$ 的函数，叫sigmoid函数。显然逻辑回归就是使用的这个函数进行的概率转换

1/20
逻辑回归是用来解决分类问题的算法，逻辑回归系数代表的含义是？
A.自变量对于概率的影响
B.自变量对于几率的影响
C.自变量对概率的对数的影响
D.自变量对几率的对数的影响
D几率(odds)指事件发生与不发生的概率的比值P/(1-p)，对于逻辑回归有log(P/1-p)=wx+b。详见《统计学习方法》6.1.2节

2/20
如果回归分析中存在多重共线性，下列说法错误的是（）。
A.所求出的参数的含义将变得不合理
B.不会影响模型的预测结果
C.可用岭回归或Lasso回归降低多重共线性对回归结果的影响
D.存在多重共线性的变量所求参数将变得不显著
B多重共线性会使估计量的方差变大，则显然会让预测结果更容易不准确

3/20
在回归分析中，回归系数的估计方法可以选用（）
A.最小二乘法
B.最大二乘法
C.一致估计法
D.有效估计法
A只有最小二乘法，另外三种说法错误

4/20
在评价多元线性回归模型拟合程度的时候，我们主要查看（）的数值
A.R方
B.修正R方
C.F值
D.t值
B
$R^2$ 可用来度量在Y的总变差中，能被X所解释的部分所占的比例，即可度量模型的拟合程度。但是多元回归中 $R^2$ 会随自变量个数的增加而被虚高，为了过滤掉这些虚高应使用修正 $R^2$ 。具体推导可见《计量经济学导论》6.3节

5/20
多元回归分析预测与一元线性回归预测的相同点是？
A.方程的自变量数量一样
B.参数计算过程一样
C.预测步骤基本一样
D.统计检验的复杂度一样
C
排除法：A显然错误，B错在多元回归的计算公式可用于一元回归，反之不行。D错在多元回归可用F检验和t检验，而一元回归中F检验的统计量会退化成t统计量的平方，二者复杂度是一样的

6/20
多元线性回归的正规方程组中系数矩阵X’X的阶数等于？
A.n
B.p-1
C.p
D.n-1
C
系数矩阵X的列数即为自变量的个数，一般用P表示。则X’X是一个P*P的矩阵，阶数为P。（X’意为X的转置）

7/20
在多元线性回归模型中自变量的设计矩阵X为列满秩，则表明矩阵X的列向量之间是什么关系？
A.线性相关
B.存在多重共线性
C.线性无关
D.无法判断
C系数矩阵每一列对应一个自变量，列满秩意味着自变量X之间线性无关

8/20
在多元线性回归中，下列哪项可以缓解多重共线性问题？
A.取对数
B.平方
C.去除异常值
D.逐步回归
D逐步回归通过逐步剔除不显著变量的过程，缓解多重共线性问题。

9/20
假设在多元线性回归中，我们有了因变量Y和自变量X1,X2…,X(p-1)的n组观测值，则下列说法正确的是？
A.最小二乘法只适用于一元线性回归而不适用于多元线性回归
B.在多元线性回归求解过程中，一般直接适用原始数据来保证数据的真实性
C.在系数估计的所有无偏估计中，最小二乘估计并不是唯一的最小方差估计
D.对于n个随机误差项，一般假设其均值为0，方差相等，且互不相关
B.回归模型只是根据已有数据总结出了其中包含的线性关系，然后对于新样本进行预测，D
但是预测值与真实值之间可能是存在差异的； C.一元线性回归模型的基本形式一般是包含常数项的； D.回归模型中的估计系数是对应真实系数的无偏估计

10/20
以下不适合对线性回归模型进行评估的指标是：
A.残差平方和
B.F1 score
C.均方误差
D.判定系数
B
F1 score专用于衡量分类型变量，线性回归的因变量显然应是数值型变量，故B错

11/20
下列关于线性回归分析中的残差（Residuals）说法正确的是？
A.残差均值总是为零
B.残差均值总是小于零
C.残差均值总是大于零
D.其他说法都不对
A此为线性回归的模型假设之一：残差均值为零

12/20
下列哪些指标不适合用来评估线性回归模型？
A.LIFT
B.Adjusted R-Squared
C.F Statistics
D.MAPE
A
LIFT用于评估分类模型，不适用于线性回归

13/20
在回归模型中，下列哪一项在权衡欠拟合（under-fitting）和过拟合（over-fitting）中影响最大？
A.多项式阶数
B.更新权重 w 时，使用的是矩阵求逆还是梯度下降
C.使用常数项
D.以上都不是
A多项式阶数的改变会显著影响回归模型对于数据的拟合程度。具体证明可由泰勒展开式得到。

14/20
关于回归与分类问题的讨论不正确的是：
A.回归问题要远比分类问题更加复杂
B.回归问题和分类问题同属于有监督学习范畴
C.回归问题最常用的评价指标体系有混淆矩阵以及ROC曲线
D.回归问题的模型更加全面、完善的描绘了事物客观规律
C混淆矩阵和ROC曲线都是用来评估分类问题的

15/20
关于忽略自相关可以带来什么问题描述错误的是？
A.可能严重低估误差项的方差
B.可能导致高估检验统计量t值，致使本不显著的变量变得显著了
C.有效性不再成立
D.有效性仍成立
D 忽略自相关带来的问题可参考唐年胜《应用回归分析》中5.6节自相关性问题及其处理

16/20
如果不考虑外部信息，聚类结构的有良性度量应当采用
A.中位数
B.均方差
C.平均数
D.方差
B排除法：A,C,D提到的统计量显然与优良性无关

17/20
K-Means是入门的聚类算法，对于K-Means算法，描述正确的是
A.需要对数据进行标准化
B.不需要对数据进行预处理
C.模型自动确定K值
D.可以直接使用分类变量
A
K-means需要计算均值和距离，非常容易受到量纲和异常值等的影响，因此需要进行数据标准化
18/20
对于K-Means算法，描述错误的是
A.该算法与样本数量线性相关，所以适合大数据集
B.需要事先确定K值
C.对异常值不敏感
D.算法效率较高，伸缩性较好
C
K-means需要计算均值和距离，非常容易受到异常值等的影响

19/20
某公司为更好进行用户留存，需建立用户行为画像，并且历史数据集中也没有用户标签信息，需要使用算法找出合理的画像标签，可用以下哪种算法实现？
A.聚类算法
B.多元线性回归算法
C.决策树算法
D.朴素贝叶斯算法
A因为历史数据中不含用户画像标签，需要用无监督学习算法，4个选项中只有A聚类算法是无监督的

20/20
在系统聚类方法中，哪种系统聚类是直接利用了组内的离差平方和？
A.最长距离法
B.重心法
C.Ward法
D.类平均法
C离差平方和法(Ward法)：基于方差分析的思想，如果分类正确，同类样品之间的离差平方和应当较小，类与类之间的离差平方和应当较大

1/20
时间序列分析可以根据历史数据对未来进行预测，以下哪个是常见的时间序列算法模型（）
A.RSI
B.MACD
C.ARMA
D.KNN
C
RSI:相对强弱指标，能够反映出市场在一定时期内的景气程度 MACD：称为异同移动平均线，代表着市场趋势的变化 KNN:(K-NearestNeighbor)临近算法，属于分类算法，是数据挖掘分类技术中最简单的方法之一。 ARMA：自回归滑动平均模型，是研究时间序列的重要方法因此，本题选择ARMA

2/20
影响时间序列的因素不包括以下哪个？
A.季节变动
B.循环波动
C.不规则波动
D.有效性
D有效性是评价估计量用的，和时间序列的影响因素无关

3/20
对于非平稳时间序列来说，大部分场景下最好的让它变成平稳序列的方法是？
A.取对数
B.归一化
C.差分
D.数据标准化
C差分是这4种方法里唯一有效的，详见《时间序列分析》第一章

4/20
可以用于趋势成分和季节成分序列的预测是哪种模型？
A.Winter模型
B.Holt模型
C.简单指数平滑模型
D.以上都不是
A
Winter模型同时含有平滑值(随机成分)和季节成分，因此可用于同时含有趋势和季节成分的预测。Holt不含季节成分，简单指数平滑不含随机成分，都不合适。详见《统计学》11.2节

5/20
时间序列呈现出的以年为周期长度的固定变动模式，这种模式年复一年重复出现，我们称之为哪种时间序列波动？
A.随机波动
B.季节波动
C.循环波动
D.不规则波动
C选项的循环波动指周期长度不定的变动模式。题目中这种固定以年为周期的波动应为B季节波动

6/20
某美容机构，因医疗意外致使顾客毁容的事件发生频率：每2-5年一次，事件造成的结果判定为重度伤害，根据严重度评估准则（SAC）该医院创建下表，该事件属于哪一级？

A.1
B.2
C.3
D.4
C
SAC是依据损害严重程度与事件发生频率为两轴所呈现的风险矩阵。本题频率与结果相交处即为确定的等级。

7/20
在根因分析中事件系统问题判断方法不包括以下哪方面的检查？
A.是否故意伤害
B.是否因个人健康或其他原因而造成病人伤害
C.是否违反安全规范或标准作业规范
D.是否自己无意识犯错
D根因分析中事件系统问题判断方法的检查处选项ABC,还包括换成另外一个人是否会犯同样的错误。

8/20
根因分析是一项结构化的问题处理法，用以逐步找出问题的根本原因并加以解决，而不是仅仅关注问题的表征。根因分析的核心是什么？
A.根原因消除
B.问题理解
C.根原因识别
D.问题原因头脑风暴
C根因分析的核心是根原因识别。

9/20
在根因分析的头脑风暴法中，每位参与者轮流提出一个想法，确保平等参与的模式属于哪种头脑风暴？
A.结构化的头脑风暴
B.非结构化的头脑风暴
C.顺序性的头脑风暴
D.以上都是
A每位参与者轮流提出一个想法，确保平等参与的头脑风暴模式是结构化头脑风暴。每位参与者自由提出想法的头脑风暴模式是非结构化头脑风暴。

10/20
对于定性数据的分析更适合使用根因分析的哪种识别工具？
A.散点图
B.帕累托图
C.亲和图
D.柱状图
C亲和图用于定性分析，其余选项用于定量分析。

11/20
提问每个已识别的原因是否是一个症状，或者是低层次的原因，还是根本原因的应用属于根原因识别的哪种方法？
A.故障树分析法
B.五问法
C.矩阵图分析法
D.因果图分析法
B题干是五问法的应用场景，用于识别因果关系链，目的是在找到一个原因时就不断地问"为什么",通过各层次的原因直至找到问题的根本原因。

12/20
以下哪项不属于根因分析因果图的类型？
A.原因型
B.对策型
C.整理问题型
D.结果导向型
D因果图又称鱼骨图，类型包括：整理问题型鱼骨图、原因型鱼骨图、对策型鱼骨图

13/20
根因分析的因果图（鱼骨图）绘制过程中，如果你想要列出产生问题的可能原因，以便于说明各个原因是如何影响后果的，应该标记在‘鱼’的哪个部位？
A.鱼刺
B.鱼头
C.鱼尾
D.以上均可
A 鱼头是标记要解决的问题或缺陷（后果），鱼刺列出的是产生问题的可能原因，有助于说明各个原因是如何影响后果的。

14/20
根本原因分析中的5WHY分析法是从下列哪几个层面实施的？
A.制造角度
B.检验角度
C.体系角度
D.以上都是
D根本原因分析中的5WHY分析法可以从制造、检验、体系角度实施。

15/20
在根因分析中鱼头在右侧是哪种类型因果图？
A.原因型
B.对策型
C.整理问题型
D.结果导向型
A当各要素与特性值间不存在原因关系，而是结构构成关系时采用整理问题型鱼骨图。鱼头在右的是原因型鱼骨图；鱼头在左的是对策型鱼骨图。

16/20
线性规划的标准型要求等式约束方程右端的常数都是？
A.非零
B.非负
C.非正
D.任何实数
B线性规划模型的标准形式的特征：(1)目标函数为极大化类型；(2)所有的约束条件都是等式；(3)所数学规划有约束方程右端的常数都是非负的；(4)所有决策变量都是非负的

17/20
在解线性规划问题时，可能出现的情况不包括（）
A.可行域为空集，原问题有可行解
B.无界解
C.可行域非空但无界，有最优解
D.最优解有无穷多个
A
A项可行域为空集，原问题就没有可行解，故错

18/20
依照决策变量取整要求的不同，整数规划的划分类型不包括以下哪种？
A.全整数规划
B.混合整数规划
C.0-1整数规划
D.非纯整数规划
D项改成纯整数规划就对了
19/20
单纯形法是求解线性规划问题最常用、最有效的算法之一，关于单纯形法的说法正确的是
A.在线性规划问题中，只要存在相应的解，则一定可以在可行域的顶点中找到。
B.单纯形法的核心是根据一定的规则，一步步寻找可行域中的最优解。
C.对偶单纯形法是求解对偶问题的一种方法。
D.单纯形法计算精度高，并且是一种很经济的算法
B
A.只有线性规划问题的最优解存在时，才一定可以在可行域的顶点中找到； C.对偶单纯形法是使用对偶理论来求解线性规划问题的一种方法，而不是求解对偶问题的方法； D.原单纯形法以高斯消去法为基础，并不是一种很经济的算法，故产生了改进单纯形法，在减少迭代累计误差的同时也提高了计算精度

20/20
整数规划，作为一种特殊的线性规划可以适用于多种运筹学和管理科学的场景，下列选项中，不适用的是？
A.农产品企业在种植面积受限情况下，分配多种蔬菜种植面积以使收益最大化
B.服装企业在满足供需的情况下，为实现利润最大化决定某些城市建设物流中心
C.房地产企业下属三个分公司各自独立，分别提出互斥型投资方案，选择对公司最有利的投资方案
D.汽车企业在原材料受限的情况下，决定能使利润最大化的不同类型的汽车数量生产方案
A整数规划是要求决策变量必须取整数，A项决策变量是分配的种植面积，是可以取非整数

内容相关
1/10
关于线性回归建模，请回答以下题目：

线性回归分析中，回归方程的检验是？
A.t检验
B.卡方检验
C.F检验
D.正态检验
C
回归方程的检验是检验线性方程是否成立，原假设为所有线性系数均为0，即 $H0:β1=β2=β3=⋯=βn=0H_0:\beta_1=\beta_2=\beta_3=\cdots=\beta_n=0$ ，使用的统计量为F检验。

2/10
关于线性回归建模，请回答以下题目：
线性回归分析中，回归系数的检验是？
A.t检验
B.卡方检验
C.F检验
D.正态检验
A回归系数的检验是检验线性方程中某个系数是否为零，看对应自变量对因变量的解释力度强不强。对所有系数都单独做这样的检验。对任意参数 $,n),\beta_i(i=1,\cdots,n),$ 有原假设 $H0:βi=0H_0:\beta_i=0$ ，使用的统计量为t检验。

3/10
关于线性回归建模，请回答以下题目：

QQ图本质上是用来检验什么（）
A.被检验分布是否服从正态分布
B.两个分布是否一致
C.被检验分布是否服从t分布
D.被检验分布是否服从卡方分布
B
QQ图是一种散点图，将给定数据集的分位数和参考分布的分位数一起绘制，然后从视觉上评估两个分布是否一致。从定义我们可以看出如果两个分布完全一致，其对应的散点图应该就是45度的直线上的点，因此两个分布越一致，散点图越靠近这条直线。人们常常拿QQ图检验被检验分布是否服从正态分布，也就是说把参考分布设置为正态分布。所以大家不要把本题的答案误选为A。CD也类似。

4/10
关于线性回归建模，请回答以下题目：

自变量的共线性问题一般用什么指标检验？
A.VIF
B.AIC
C.BIC
D.KPI
A
自变量的共线性一般用方差膨胀因子VIF来衡量。AIC、BIC是多元线性回归变量筛选时常常使用的评价准则。KPI是企业价值管理中常用的指标。

4/10
关于线性回归建模，请回答以下题目：

6/10
请回答下列非监督学习的算法问题

PCA的缺点是？
A.去噪声
B.简洁
C.全局降维
D.线性降维
D
PCA是一种线性降维，虽然经典，但具有一定的局限性。

7/10
请回答下列非监督学习的算法问题

在K-均值聚类分析使用的距离是（）
A.欧式距离
B.绝对距离
C.Minkowski距离
D.笛卡尔距离
A
参见K-均值聚类的具体方法

8/10
请回答下列非监督学习的算法问题

K-means聚类分析中需要做变量标准化的原因（）
A.求长度
B.求面积
C.求距离
D.求宽度
C
K-means聚类本质上是一种基于欧式距离度量的数据划分方法，均值和方差大的维度对数据的聚类结果会产生决定性的影响，所以未做标准化处理的数据无法直接参与运算和比较。所以答案为C。

9/10
请回答下列非监督学习的算法问题

不属于类与类之间的距离定义的是？
A.重心法
B.最长距离法
C.最短距离法
D.类比法
D
最短距离法： $d=min[d_{ij}]$ ，式 $d_{ij}$ 中表示 $xi∈x_i \in$ 类 $1$ 和 $xj∈x_j \in$ 类 $2$ 之间的距离。
最长距离法： $d=max[d_{ij}]$ ，式 $d_{ij}$ 中表示 $xi∈x_i \in$ 类 $1$ 和 $xj∈x_j \in$ 类 $2$ 之间的距离。
重心法： $D=|x_1-x_2|$ ，式中 $x_1,x_2$ 分别为类1和类2的重心。
可结合下面的图示，理解上述概念。

10/10
请回答下列非监督学习的算法问题

关于K-均值聚类的说法错误的是？
A.对于离群点和孤立点敏感
B.K值可以自行迭代给出
C.只能发现球状簇
D.对初始聚类中心的选择敏感
B
K-means聚类容易受初始值和离群值的影响，故选择A和D正确。由于K-means聚类算法是基于距离度量的算法，所以它只能发现球状簇，而对于类似于环形簇这样的数据就不能很好的聚类了。K值的选择是K-means算法的最大问题，也是这种算法的主要缺点。故B选项说法错误。

多选题

1/20
下面哪些方法是属于定性研究（）
A.文案调查法
B.深度访谈法
C.焦点小组座谈法
D.投影技法
ABCD
定性研究是指研究者运用历史回顾、文献分析、访问、观察、参与经验等方法获得教育研究的资料，并用非量化的手段对其进行分析、获得研究结论的方法，因此选项ABCD都符合

2/20
下列属于柱状图可视化方法特点的是（）
A.是一种以长方形的长度为变量的表达图形的统计报告图
B.可以通过柱状高度反映数据之间的差异
C.用来比较两个或以上的数据差异
D.适用大规模的数据集
ABC
柱状图是一种以长方形的长度为变量的表达图形的统计报告图，由一系列高度不等的纵向条纹表示数据分布的情况，用来比较两个或以上的价值(不同时间或者不同条件)，只有一个变量，通常利用于较小的数据集分析，本题选ABC

3/20
下列哪些元素属于元数据内容？（）
A.名称
B.长度
C.类型
D.取值范围
ABCD
暂无答案解析

4/20
从业务角度区分，标签可以分为哪两类？
A.分群标签
B.分层标签
C.偏好标签
D.行为标签
AB
暂无答案解析

5/20
设Y，Z是来自总体X的简单随机样本，则下列统计量，哪个是总体均值的无偏估计？
A.Y
B.Z
C.(Y+Z)/2
D.(Y+2Z)/3
ABCD
若某个估计量的均值等于其总体参数的均值，则该估计量称为总体参数的无偏估计

6/20
设Z是标准正态分布， $,ZnZ_1,Z_2,\cdots,Z_n$ 为n次独立实验，则下面正确的统计量是
A. $Σi=1nZi2∼χ2(n)\displaystyle\Sigma_{i=1}^{n} Z_i^2\sim \chi ^2(n)$
B. $1nΣi=1nZi∼N(0,1)\frac{1}{n}\Sigma_{i=1}^{n} Z_i\sim N(0,1)$
C. $n−1ZnΣi=1nZi2∼t(n−1)\frac{\sqrt{n-1}Z_n}{\sqrt{\Sigma_{i=1}^{n} Z_i^2}} \sim t(n-1)$
D. $(n2−1)Σi=12Zi2Σi=3nZi2∼F(2,n−2)(n>3)\frac{(\frac{n}{2}-1)\Sigma_{i=1}^2Z_i^2}{\Sigma{i=3}{n}Z_i^2}\sim F(2,n-2)(n>3)$

ACD
定义：标准正态分布的平方和服从卡方分布标准正态分布的均值服从均值为0，方差为1/n的标准正态分布假设随机变量X1与X2相互独立，且X1服从标准正态分布，而X2服从自由度为n的卡方分布，则X1/SQRT(X2/n)服从自由度为n的t分布假设随机变量X1服从自由度为m的卡方分布，X2服从自由度为n的卡方分布，则(X1/m)/(X2/n)服从自由度为（m,n）的F分布
7/20
下列对假设检验的描述合理的是?
A.备择假设是研究者想收集证据予以支持的假设
B.原假设是研究者想收集证据予以推翻的假设
C.原假设是研究者想收集证据予以支持的假设
D.备择假设是研究者想收集证据予以推翻的假设
AB
假设检验的原则是保护备择假设，所以当假设检验做出拒绝原假设而接受备择假设的结论时，则样本统计值必然落入拒绝域中，即有充足的理由否定原假设；当然这个结论也可能是错误的（拒真），但犯该错误的概率不会超过α；换言之，拒真错误为小概率事件。但是当假设检验做出接受原假设的结论时，样本统计量却不一定会正真落入接受域，即没有充分的理由说明样本不会落入拒绝域。所以，假设检验的结论是：拒绝一定拒绝，而接受不一定接受。

8/20
在散点图中所以的样本点都在一条直线上，那么解释变量和被解释变量之间的相关系数是？
A.-1
B.0
C.1
D.2
AC
散点图表示的是因变量随着自变量变化的大致趋势，根据散点图可以选择合适的函数进行数据拟合，即散点图显示了自变量与因变量之间存在的某种关系。当散点图上的点均在一条直线上时，表明自变量与因变量之间存在完全相关关系，即完全正相关或完全负相关（相关系数为1或者-1）

8/20
在散点图中所以的样本点都在一条直线上，那么解释变量和被解释变量之间的相关系数是？
A.-1
B.0
C.1
D.2
CD散点图表示的是因变量随着自变量变化的大致趋势，根据散点图可以选择合适的函数进行数据拟合，即散点图显示了自变量与因变量之间存在的某种关系。当散点图上的点均在一条直线上时，表明自变量与因变量之间存在完全相关关系，即完全正相关或完全负相关（相关系数为1或者-1）

在主成分分析中如何得到协方差矩阵的特征值特征向量？
A.正交旋转
B.特征值分解
C.奇异值分解
D.以上都是
BC
B选项，特征值分解就是直接求协方差矩阵的特征值特征向量。C选项，奇异值分解的旋转矩阵的列向量恰为协方差矩阵的单位特征向量。A,D都与计算特征值特征向量无关。

11/20
因子分析中因子旋转的方法有（）
A.方差最小正交旋转
B.方差最大正交旋转
C.斜交旋转
D.正交旋转
BC
因子旋转的目的就是让因子载荷更大，即方差更大，故B正确。斜交旋转也是要使方差最大，只不过一般叙述的时候不加定语罢了，故C正确

在多元线性回归模型中增加自变量时，下列说法正确的是？
A.预测误差变小，从而残差平方和减少，使得R2变大
B.预测误差变大，从而残差平方和增大，使得R2变小
C.预测误差变小，从而残差平方和减少，不影响R2
D.可以使用调整的多重判定系数避免多重判定系数R2的误判
AD
增加自变量一定会使残差平方和减小，从而使R^{2变大，故A正确。但也有可能使R}2出现虚高，故可用调整R^2来一定程度上修正这种情况。详见《计量经济学导论》6.3节

13/20
某连续型变量数据集的缺失值占比约10%，可以采用哪种方法处理？
A.均值填补
B.K-means聚类填补
C.回归填补
D.众数填补
ABC
前三个选项都可以处理连续变量的缺失值问题，一般不使用众数处理连续型变量的缺失值问题

14/20
以下几个场景可以使用逻辑回归算法？
A.用户等级分类
B.疾病预测
C.用户违约信息预测
D.挖掘出客户群中可以划分成哪些群体
ABC
逻辑回归是有监督学习算法，D选项为无监督学习的场景，故错误

15/20
聚类算法属于无监督机器学习算法，以下属于聚类的应用场景的是？
A.对电影网站中相似的电影进行聚类, 从而帮助划分电影
B.挖掘出客户群中可以划分成哪些群体
C.人脸识别
D.购物篮分析
AB
A,B属于无监督学习场景，适用聚类算法。C属于有监督学习适用。D适用关联规则一类的算法

16/20
采用聚类分析以区分客户的类型，在评估聚类结果时，（）
A.组间平方和 BS 越大，聚类效果越好
B.组间平方和 BS 越小，聚类效果越好
C.组内平方和 WS 越大，聚类效果越好
D.组内平方和 WS 越小，聚类效果越好
AD
组间平方和越大，说明各个组区分地越明显。组内平方和越小，说明每个组里元素的属性越相近。

17/20
AR模型平稳性的判别方法有？
A.散点图
B.单位根判别法
C.平稳域判别法
D.自相关图
BCD
A选项与平稳性的判别无关，事实上时间序列的相关问题也很少使用散点图来分析。

18/20
根据麦肯锡问题分析方法，问题的三种类型包括：
A.恢复原状型问题
B.问题解决型问题
C.防范潜在型问题
D.追求理想型问题
ACD
麦肯锡问题的三大类型：恢复原状型、追求理想型、防范潜在型。

19/20
故障树分析法经常与哪些方法联合使用？
A.头脑风暴法
B.五问法
C.配对法
D.引力法
AB
故障树分析法简称FTA，通过对造成产品故障的硬件、软件、环境、人为等各方面因素进行分析来画出故障树图，从而确定产品故障原因的各种组合方式以及其发生的概率。特点是直观、明了、思路清晰、逻辑性强，可以做定量分析也可以做定性分析。故障树分析是建立在五问法发的结果之上的运用头脑风暴法找出在顶事件之下的不同层次的原因是故障分析的重要步骤。

20/20
对根因分析描述合理的是？
A.根因分析是一种非结构化的调查活动
B.根原因消除是根因分析的核心
C.根因分析不是一个单一方法，也不是一组工具
D.根因分析是一种结构化的调查活动
CD
根因分析是一种结构化的调查活动，其核心是根因识别