CDA数据分析师认证考试模拟题库-CSDN博客

CDA等级考试模拟题库

Level 1

1、分析教师和会计师之间收入的差异，选择什么分析方法最合适？

A、卡方分析

B、方差分析

C、两样本T检验

D、相关系数

答案C

2、分析购买不同产品的频次时，使用以下哪个任务?

A、列表数据

B、汇总表

C、汇总统计量

D、单因子频数

答案D

2、分析购买不同产品的频次时，使用以下哪个任务?

A、列表数据

B、列表报表

C、汇总统计量

D、单因子频数

答案D

3、以下哪个语句可以将字符型数值date(示例：“2001-02-19”)转换为数值类型?

A、INPUT(date，YYMMDD10.)

B、PUT(date，YYMMDD10)

C、INPUT(date，YYMMDD10.)

D、PUT(date，YYMMDD10)

答案A

4、来自于总体的样本最主要的属性是什么?

A、随机

B、有代表性

C、正态分布

D、连续分布

答案B

5、Ｄ—Ｗ统计量用于什么检验?

A、异方差

B、自相关

C、解释变量线性相关

D、扰动项不服从正态分布

答案B

6、什么统计量用于检验解释变量之间线性相关？

A、标准化的残差

B、Ｄ—Ｗ统计量

C、Cook's D

D、膨胀系数

答案D

7、连续变量右偏的情况下，中位数在均值的？

A、左边

B、右边

C、相等

D、无法判断

答案A

8、代表变量离散程度的指标是？

A、均值

B、标准差

C、最大值

D、中位数

答案Ｂ

9、解释变量是多分类变量，被解释变量是连续变量，使用什么分析方法？

A、卡方分析

B、方差分析

C、两样本T检验

D、相关系数

答案Ｂ

10、如果在方差分析中有20个观察值，你要计算残差。那么以下哪个值会是残差和？

A、-20

B、0

C、400

D、从已知信息中无法推断

答案Ｂ

11、要进行一项研究，比较男女月均信用卡支出。可能使用哪一种统计方法？

A、双样本T检验

B、双样本T检验和单因素方差分析

C、单因素方差分析

D、双因素方差分析

答案Ｂ

12、你运用线性回归任务进行回归，Y是因变量，X1是唯一解释变量。如果X1的参数估计（斜率）是0，那么当X1=13时，Y的最佳预测值是？

A、13

B、Y的均值

C、0

D、X1的均值

答案Ｂ

13、方差分析表中哪个统计量是用于检验总体模型假设的？

A、F

B、t

C、R2

D、Adjusted R2

答案Ａ

14、当你用跑步时间（RunTime）、年龄（Age）、跑步时脉搏（Run_Pulse）以及最高脉搏（Maximum_Pulse）作为预测变量来对耗氧量（Oxygen_Consumption ）进行回归时，年龄（Age）的参数估计是-2.78. 这意味着什么？

A、年龄每增加一岁，耗氧量就增大2.78.

B、年龄每增加一岁，耗氧量就降低2.78.

C、年龄每增加2.78岁，耗氧量就翻倍。

D、年龄每减少2.78岁，耗氧量就翻倍。

答案Ｂ

15、在不同解释变量数量不同的模型中，以下哪个指标对选择模型没有作用？

A、R2

B、Adjusted R2

C、Mallows’Cp

D、AIC

答案A

16、在线性回归模型中，假设预测变量是正态分布的。

A、对

B、错

C、不知道

答案B

17、在标准正态分布的属性下，预期95%的学生化残差处于哪两个值之间？

A、-3 和 3

B、-2 和 2

C、-1 和 1

D、0 和 1

答案B

18、共线性违反了以下哪一假设？

A、误差独立

B、方差不变

C、误差正态分布

D、以上均不是

答案D

19、当样本量减小时，以下哪个情况会发生？

A、卡方值增大。

B、P值增大。

C、Cramer’s V 增大。

D、Odds Ratio增大。

答案B

20、研究者想测量两个二元变量间的相关性强度。他该使用以下哪个统计量？

A、Hansel 和 Gretel 相关系数

B、Mantel-Haenszel 卡方检验

C、Pearson卡方检验

D、Spearman 相关系数

答案D

21、ROC曲线凸向哪个角，代表模型约理想？

A、左上角

B、左下角

C、右上角

D、右下角

答案A

22、添加”分配项目逻辑库“在哪个菜单下？

A、文件

B、编辑

C、任务

D、工具

答案D

23、来自于总体的样本最主要的属性是什么?

a.随机

b.有代表性

c.正态分布

d.等概率

（B）

24、如果硬币是均匀的，掷100，有可能100次都是正面吗?

a.是

b.否

c.不确定

（A）

25、满足以下什么条件可以保证样本均值渐进服从正态分布？

i总体服从正态分布

ii样本量足够大

iii样本的标准差很小

a.i&ii

b.i&iii

c.ii&iii

d.i&ii&iii

(A)

26、在假设检验中，什么因素影响alpha的取值

a.检验的P-VALUE

b.样本量

c.以上两者

d.以上都不是

(D)

27、数据分析能力有几个层次？

a.5

b.6

c.7

d.8

(D)

28、数据挖掘模型有几大类？

a.1

b.2

c.3

d.4

(B)

29、客户画像可以使用哪种分析方法？

a.聚类

b.因子分析

c.两者都可以

d.两者都不可以

(C)

30、逻辑回归属于哪个数据挖掘方法类别？

a.有监督

b.无监督

c.两者都是

d.两者都不是

(C)

30、个体之间的相似性主要用哪种数据挖掘方法？

a.聚类

b.因子分析

c.关联规则

d.社交网络分析

(A)

31、变量之间的相关性主要用哪种数据挖掘方法？

a.聚类

b.因子分析

c.关联规则

d.社交网络分析

(B)

32、商品之间的相关性主要用哪种数据挖掘方法？

a.聚类

b.因子分析

c.关联规则

d.社交网络分析

(C)

33、客户之间的联系主要用哪种数据挖掘方法？

a.聚类

b.因子分析

c.关联规则

d.社交网络分析

(D)

34、线性回归和逻辑回归的主要区别？

a.解释变量类型不同

b.被解释变量类型不同

c.两者都不同

(B)

35、变量测量类型有几种？

a.1

b.2

c.3

d.4

(C)

36、民族是什么测量类型的变量？

a.名义

b.等级

c.连续

d.以上都不是

(A)

37、身高是什么测量类型的变量？

a.名义

b.等级

c.连续

d.以上都不是

(C)

38、等级变量和连续变量的区别？

a.排序是否有意义

b.差值是否有意义

c.是否有绝对的“0”点

d.以上都不是

(B)

39、连续变量用什么图形描述其分布情况？

a.直方图

b.盒须图

c.以上都是

d.以上都不是

(C)

40、累积频次和累积百分比对什么变量有意义？

a.连续变量

b.等级变量

c.名义变量

d.以上都不是

(B)

41、盒须图的中间粗线代表什么统计量？

a.均值

b.中位数

c.众数

d.以上都不是

(B)

42、连续变量的什么统计量对中心水平最有代表意义？

a.均值

b.中位数

c.众数

d.以上都不是

(B)

42、反映连续变量离散程度的是什么统计量？

a.均值

b.方差

c.偏度

d.峰度

(B)

43、什么统计量反映连续变量的中心水平？

a.均值

b.方差

c.偏度

d.峰度

(A)

44、什么统计量对评估连续变量的中心水平的代表能力？

a.均值

b.方差

c.偏度

d.峰度

(B)

45、什么统计量用于决策选择均值还是中位数作为中心水平的统计量？

a.均值

b.方差

c.偏度

d.峰度

(C)

46、连续变量右拖尾，其偏度如何？

a.大于0

b.小于0

c.以上都有可能

d.以上都不是

(A)

47、标准差的量纲是什么？

a.原始变量量纲的平方

b.原始变量量纲

c.没有量纲

d.以上都不是

(B)

48、正态分布2倍标准差曲线下面积是多少？

a.99%

b.68%

c.95%

d.以上都不是

(C)

49、以下哪个分布的右偏最严重？

a.正态分布

b.泊松分布

c.伽玛分布

d.对数正态分布

(D)

50、保险理赔数额分析经常用到哪个分布？

a.正态分布

b.泊松分布

c.伽玛分布

d.对数正态分布

(C)

51、分析网页点击数量经常用到哪个分布？

a.正态分布

b.泊松分布

c.伽玛分布

d.对数正态分布

(B)

52、收入变量分布一般的偏度如何？

a.大于0

b.小于0

c.以上都有可能

d.以上都不是

(A)

53、股票收益变量分布一般的峰度如何？

a.大于0

b.小于0

c.以上都有可能

d.以上都不是

(A)

54、精准营销模式和传统营销模式的主要区别体现在？

a.以产品为中心

b.以客户为中心

c.以上都是

d.以上都不是

(A)

55、客户生命周期一般分几个阶段？

a.2

b.3

c.4

d.5

(D)

56、RFM方法中的M指什么？

a.最近一次消费时间到统计时间的间隔

b.统计区间的购买频次

c.统计区间的消费金额

d.以上都不是

(C)

57、探索两个连续变量之间关系的图形方法是？

a.散点图

b.分类盒须图

c.经验Logit曲线

d.分类条形图

(A)

58、探索一个分类变量对一个连续变量之间关系的图形方法是？

a.散点图

b.分类盒须图

c.经验Logit曲线

d.分类条形图

(B)

59、两个连续变量之间没有关系的图形散点图是？

I.圆球状分布

II.水平或纵向的带状分布

III.斜向上的椭圆

IV.斜向下的椭圆

a.I ; b.II; c.I、II; d.II、IV

(C)

60、两个连续变量之间的散点图是完整的二次曲线，则皮尔森相关系数为？

a.大于0

b.小于0

c.等于0

d.以上都有可能

(C)

更多请见常见学习问题，搜索“CDA题库”！

61、皮尔森相关系数如果等于0，这两个变量是什么关系？

a.没关系

b.没有线性关系

c.没有非线性关系

d.以上都不对

(B)

62、选择主成份个数的标准？

a.特征值大于1

b.累积解释方差大于80%

c.以上两者联合使用

d.以上两者选一个使用

(C)

63、以下哪种方法可以协助分析人员完成变量维度分析的工作？

a.主成份分析

b.因子分析

c.个体聚类分析

d.以上结果都不对

(B)

64、树形图在哪种聚类方法中可以使用？

a.系统聚类法

b.快速聚类法

c.以上两者都有

d.以上两者都没有

(A)

65、聚类方法中哪种方法计算两个类(两椭球)之间的距离会倾向于将大的类分开？

a.平均联接

b.重心法

c.Ward最小方差法

d.以上都可能

(A)

66、聚类方法中哪种方法计算两个类(两椭球)之间的距离较少受到异常值的影响？

a.平均联接

b.重心法

c.Ward最小方差法

d.B和C

(D)

67、使用聚类方法进行异常值侦测，对变量需要进行何种处理？

a.不需要进行处理，统计工具自动进行均值标准化

b.需要进行极值标准化

c.用变量的秩进行分析

d.以上都不对

(A)

68、如果没有任何业务经验，在系统聚类方法中如何决定分类数量最合理？

a.半偏R方的大小

b.树形图中树高的大小

c.以上都对

d.以上都不对

(C)

69、快速聚类方法是否可以交互的进行分类数量的判断？

a.能

b.不能

(B)

70、哪种方法可以运用于大样本的聚类？

a.快速聚类方法

b.系统聚类方法

(A)

71、哪种聚类方法可以有树形图？

a.快速聚类方法

b.系统聚类方法

(B)

72、因子分析是否是聚类方法所必需的？

a.是

b.不是

(A)

73、使用什么方法进行聚类后的分析？

a.分类变量对连续变量的描述方法

b.连续变量对连续变量的描述方法

c.连续变量对分类变量的描述方法

d.分类变量对分类变量的描述方法

(A)

74、如果方差分析显著，则？

a.组间变异性大

b.组内变异性大

c.组间变异性占比大

d.组内变异性占比大

(C)

75、方差分析的R方代表？

a.总体变异中可用模型解释的比例

b.总体变异中不能用模型解释的比例

c.被解释变量总体变异

d.解释变量总体变异

(A)

76、一个有4个水平的分类变量，在作方差分析时，可以生成多少个虚拟变量？

a.1

b.2

c.3

d.4

(C)

77、在作方差分析时，从业务理解认为，何时两个解释变量需要考虑交互效应？

a.一个变量是另外一个变量的控制变量

b.一个变量是另外一个变量的调节变量

c.一个变量是另外一个变量的中介变量

d.以上都不对

(B)

78、分析一个连续变量对另外一个连续变量的作用关系，使用什么分析方法？

a.线性回归

b.方差分析

c.逻辑回归

d.列联表分析

(A)

79、运用线性回归任务进行回归，Y是因变量，X1是唯一解释变量。如果X1的参数估计（斜率）是0，那么当X1=13时，Y的最佳预测值是？

a.13

a.Y的均值

c.0

d.X1的均值

(B)

80、方差分析表中哪个统计量是用于检验总体模型假设的？

a.F

a.t

c.R2

d.Adjusted R2

(A)

81、线性回归对残差有何要求？

a.独立

b.正态性

c.同分布

d.以上都对

(D)

82、在线性回归模型中，假设预测变量是正态分布的？

a.对

b.错

(B)

83、在标准正态分布的属性下，预期95%的学生化残差处于哪两个值之间？

a.-3 和 3

b.-2 和 2

c.-1 和 1

d.0 和 1

(B)

84、共线性违反了以下哪一假设？

a.误差独立

b.方差不变

c.误差正态分布

d.以上均不是

(D)

85、如果预测变量间没有相关性，模型中还可能存在共线性问题吗？

a.可能

b.不可能

(B)

86、当样本量减小时，以下哪个情况会发生？

a.卡方值增大。

b.P值增大。

c.Odds Ratio增大。

d.Cramer’s V 增大。

(B)

87、研究者想测量两个二元变量间的相关性强度。他该使用以下哪个统计量？

a.Hansel 和 Gretel 相关系数

b.Mantel-Haenszel 卡方检验

c.Pearson卡方检验

d.Odds Ratio

(D)

88、Logit值的上下界是多少？

a.下界=0,上界=1

b.下界=0,无上界

c.无下界,无上界

d.无下界,上界=1

(C)

89、同一个回归模型，则灵敏度和特异度有什么关系？

a.下界=0,上界=1

b.下界=0,无上界

c.无下界,无上界

d.无下界,上界=1

(C)

90、线性回归中，回归系数的检验使用哪个统计量？

a.T统计量

b.F统计量

c.卡方统计量

d.以上都不对

(A)

91、线性回归中，对回归系数进行检验时，原假设是哪个？

a.系数为0

b.系数为1

c.以上都不对

(A)

92、多元线性回归与一元线性回归之间假设区别是哪个？

a.Y的平均值能够准确地被由X及其函数变换组成的线性函数建模出来。

b.解释变量和随机扰动项不存在线性关系。

c.解释变量之间不存在线性关系（或强相关）。

d.误差是独立的。

(C)

93、以下哪个指标可以用于比较多个多元线性回归模型哪个最好？

a.R方。

b.调整R方。

c.F统计量。

d.T统计量。

(B)

94、构造多元线性回归模型的过程中，哪个模型选择方法可以提供最优的模型？

a.向前逐步法。

b.向后逐步法。

c.逐步法。

d.全子集法（Mallows CP）。

(D)

95、解释变量包括连续变量和分类变量，被解释变量为连续变量，选择哪个分析方法？

a.方差分析。

b.线性回归。

c.协方差分析。

d.逻辑回归。

(C)

96、以下哪种变换不能将右偏变量转换为对称分布的变量？

a.学生标准化（中心标准化）。

b.曲对数。

c.秩变换。

d.以上都可以。

(A)

97、线性回归中，扰动项异方差如何检验？

a.异方差检验。

b.DW检验。

c.膨胀系数。

d.QQ检验。

(A)

98、线性回归中，扰动项不独立如何检验？

a.异方差检验。

b.DW检验。

c.膨胀系数。

d.QQ检验。

(B)

99、线性回归中，解释变量之间强线性相关如何检验？

a.异方差检验。

b.DW检验。

c.膨胀系数。

d.QQ检验。

(C)

100、线性回归中，扰动项服从正态分布如何检验？

a.异方差检验。

b.DW检验。

c.膨胀系数。

d.QQ检验。

(D)

101、线性回归中，以下哪个假设不能检验？

a.解释变量之间不能强线性相关。

b.解释变量和扰动项不能线性相关。

c.扰动项独立同分布。

d.扰动项服从正态分布。

(B)

102、线性回归中，遗漏的变量包含在什么之中？

a.解释变量。

b.被解释变量。

c.回归系数。

d.扰动项。

(D)

103、Cook’s D 统计量的阀值？

a.4/N。

b.4/K。

c.K/N。

d.N/K。

其中N代表样本量，K代表解释变量个数。

(A)

104、Cook’s D 统计量用于什么检验？

a.异方差检验。

b.异常值检验。

c.自相关检验。

d.扰动项正态检验

(B)

105、学生化残差统计量用于什么检验？

a.异方差检验。

b.异常值检验。

c.自相关检验。

d.扰动项正态检验

(B)

106、RSTUDENT 残差统计量用于什么检验？

a.异方差检验。

b.异常值检验。

c.自相关检验。

d.扰动项正态检验

(B)

107、学生化残差(SR)当希望剔除5%的异常值时，临界点如何选择？

a.|SR| > 1。

b.|SR| > 2。

c.|SR| > 3。

d.|SR| > 4。

(B)

108、通过分析ROC曲线，沿着ROC曲线，什么在变化？

a、总体的先验概率

b、训练数据集中的Y=1的概率

c、样本的基础概率

d、预测Y=1概率的阀值

（D）

109、通过分析ROC曲线，哪个模型最好？

a、I

b、II

c、III

d、无法判断

（C）

110、请判断一下哪个模型是无法用线性回归模型？

a、y =β₀ +β₁x² + u

b、y =β₀ +β₁ ln(x) + u

c、y =e⁽^β0⁺^β1x^+ u)

d、Ln(P/(1-P)) =β₀ +βx+ u(其中P为Y=1的概率)

（D）

Level Ⅱ：

111 建立逻辑回归时,为什么有时候需要对连续变量进行分箱处理?

a.避免变量的共线性

b.捕获原始连续变量和被解释变量之间非线性关系

c.避免异常值影响

d.修正残差非正态分布

（B、C）

112 构造逻辑回归时，如果采用过渡抽样，则预测值在什么情况下需要调整?

a.银行信用卡部门根据购买预测值大小进行营销

b.银行信用评级部门根据违约预测值大小进行信用评级

c.银行资金监管部门根据违约预测值大小预测违约准备金

d.银行向外部公布预测的坏账比例

（B、C、D）

113 混淆矩阵是通过过渡抽样数据计算的，以下哪个受到影响?

a.敏感度和PV+

b.特异度和PV-

c.PV+和PV-

d.敏感度和特异度

（D）

114 根据混淆矩阵计算敏感度?

A. 25/48

B. 58/102

C. 25/B9

D. 58/81

（A）

115 在作逻辑回归时，如果区域这个变量，当Region=A时Y取值均为1，则出现什么问题？

A. 共线性

B. 异常值

C. 拟完全分离（Quasi-complete separation）

D. 缺失值

（C）

116在时间序列ARIMA模型分析中，MA(1)的自相关函数（ACF）和偏相关函数（PACF）的情况？

A. ACF１步截尾，PACF拖尾

B. ACF拖尾，PACF１步截尾，

C. ACF拖尾，PACF拖尾

D. ACF１步截尾，PACF１步截尾

（Ａ）

117在时间序列ARIMA模型分析中，AR(1)的自相关函数（ACF）和偏相关函数（PACF）的情况？

A. ACF１步截尾，PACF拖尾

B. ACF拖尾，PACF１步截尾，

C. ACF拖尾，PACF拖尾

D. ACF１步截尾，PACF１步截尾

（Ｂ）

118 在时间序列ARIMA模型分析中，AR(1)的自相关函数（ACF）和偏相关函数（PACF）的情况？

A. ACF１步截尾，PACF拖尾

B. ACF拖尾，PACF１步截尾，

C. ACF拖尾，PACF拖尾

D. ACF１步截尾，PACF１步截尾

（C）

119 在构造逻辑回归之前，如何确定连续解释变量以何种形式引入回归方程中？

A. 看散点图

B. 看分类盒须图，

C. 经验Logit曲线

D. A以上皆不对

（C）

120 在构造逻辑回归时，分类变量的默认编码形式是？

A. 效应

B. 引用

（Ａ）