单选题
1.以下哪个指标不能用于线性回归中的模型比较:
A.F-measure
B.调整R方
C.AIC
D.BIC
正确答案:A ,
解析:无解析
2.ROC曲线一般指接受者操作特征曲线。接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P (y/N)为横坐标,以击中概率P (y/SN)为纵坐标,画得的各点的连线。在使用ROC曲线判断模型的优劣时,以下哪个叙述是正确的?
A.ROC曲线下方的面积越大,说明模型效果越好
B.ROC曲线下方的面积越小,说明模型效果越好
CROC曲线越靠近45度斜线,说明模型效果越好
D.ROC曲线一般在45度斜线下方
正确答案:A ,
解析:无解析
3机器学习中的分类模型有逻辑回归、朴素贝叶斯、决策树、支持向量机、随机森林、梯度提升树等分类算法。一般情况下,以下哪些指标不用于分类模型中的模型评价:
A.正确率 Accuracy
B.查全率Recall
C.命中率 Precision
D.轮廓系数Silhouette Coefficient
正确答案:D ,
解析:轮廓系数Silhouette Coefficient一般用作评价聚类效果
4关于序列模式的说法,下列选项不正确的是?
A.给定数据集D和用户指定的最小支持度阈值minsup,序列模式发现的任务是找出支持度大于或等于minsup的所有序列。
B.候选序列的个数比候选项集的个数大的多
C序列模式的每个元素者均一时间窗口[ L, u] 相关联,其中L是该时间窗口内事件的最晚发生时间,而u是该时间窗口内事件的最早发生时间。
D.序列s的支持度是包含s的所有数据序列所占的比例。如果序列s的支持度大于或等于用户指定的阈值minsup,则称s是一个序列模式(或频繁序列)。
正确答案:C ,
解析:无解析
5序列模式挖掘(sequence pattern mining )是指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。序列模式中关于序列的说法不正确的是?
A.一般地,序列是元素(element)的有序列表
B.序列的长度对应于出现在序列中的元素个数
C.序列可以用它的长度和出现事件的个数刻画
D.序列模式的讨论主要考虑时间事件,不可以将它推广到事件具有空间次序的情况
正确答案:D ,
解析:无解析
6假设{ BCE} 为一频繁项目集(Frequentltemset),则根据Apriori Principle以下何者不是子频繁
项目?
A.BC
B.CE
C.C
D.CD
正确答案:D ,
解析:无解析
7有 一 条 关 联 规 则 为 A 此 规 则 的 置 信 水 平( c o n f i d e n c e ) 为 6 0 % , 则 代 表 :
A.买B商品的顾客中,有60%的顾客会同时购买A
B.买A商品的顾客中,有60%的顾客会同时购买B
C.同时购买A,B两商品的顾客,占所有顾客的60%
D.两商品A,B在交易数据库中同时被购买的机率为60%
正确答案:B ,
解析:无解析
8关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。以下属于关联分析的是:
A.CPU性能预测
B.购物篮分析
C.自动判断莺尾花类别
D.股票趋势建模
正确答案:B ,
解析:无解析
9聚类分析是指将数据对象的集合分组为由类似的对象组成的多个类的分析过程。以下哪个是聚类分析所关心的重点?
A.如何以数字来表示成员间的相似性
B如何根据相似性将类似的成员分在同一群
C.所有成员分群完毕后,对每一群的特征应如何描述
O D.以上皆是
正确答案:D ,
解析:无解析
10 BIRCH是以下哪种算法的简称?
A.分类器
B.聚类算法
C.关联分析算法
D.特征选择算法
正确答案:B ,
解析:无解析
11 系统聚类法(hierarchical cluster method)又称“分层聚类法”,是聚类分析的一种方法。而在系统聚类中R2是指
A.组内离差平方和除以组间离差平方和
B.组间离差平方和除以组内离差平方和
C.组间离差平方和除以总离差平方和
D.组间均方除以总均方。
正确答案:C,
解析:无解析
12以下文本特征向量化的方法中属于词嵌入模型的是?
A.One-Hot 编码
B.TF-IDF 模型
C.CBOW模型
D.以上皆是
正确答案:C,
解析:无解析
13 多层感知器和单层感知器一样,是一种人工神经网络,多层感知机解决了单层感知机不能解决的
什么问题?
A与
C B或
C.非
D异或
正确答案:D ,
解析:无解析
14 随机森林(Random Forest)是一种集成算法(Ensemble Learning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。集成方法中的随机森林(Random Forest),是下列哪个方法的延伸?
A.决策树
B.神经网络
C.贝叶斯分类法
D.以上均可
正确答案:A ,
解析:随机森林指的是利用多棵树对样本进行训练并预测的一种分类器
15假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分?
A.设惩罚参数C=1
B.设惩罚参数C=0
C.设惩罚参数c二无穷大
D.以上都不对
正确答案:C ,
解析:无解析
16可解释性是指人类能够理解决策原因的程度。机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决定或预测。下列哪种算法的可解释性最差?
A.线性回归
B.逻辑回归
C.回归树
D.XGBoost
正确答案:D ,
解析:无解析
17卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。卷积神经网络中Dropout层的作用是?
A.加快收敛速度
B.防止过拟合
C.丰富训练样本
D.增强正样本
正确答案:B ,
解析:无解析
18 BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。BP神经网络可以有几层隐藏层?
A.1层
B.2层
C.3层
D.以上皆可
正确答案:D ,
解析:无解析
19 逻辑回归Logistic Regression)和神经网络都可以进行多类别分类,那么如何以类神经网络仿真逻辑回归?
A.输入层节点个数设定为3
B.隐藏层节点个数设定为0
C.输出层节点个数设定为3
D.隐藏层节点个数设定为1
正确答案:B ,
解析:无解析
20 决策树建模时一个必要的步骤是决策树的修剪,下列哪个选项不是决策树需要修剪的原因?
A.为避免数据中的噪声影响建树的结果
B.为了得到较一般化的决策规则
C.为了节省建模所需的时间
D.为了能在测试数据集中得到较好的预测结果
正确答案:C ,
解析:无解析
21 下列哪个决策树的算法采用盆栽法(Bonsai Technique)由上而下(Top-Down)的方式来剪枝?
A.CHAID
B.CART
C.C4.5
D.以上皆是
正确答案:A ,
解析:无解析
22 在决策树算法的学习过程中,信息增益(Information Gain)是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,决策树中的信息增益的计算是用来?
A.剪枝
B.使树成长
C.处理空值
D.避免树过度成长
正确答案:B ,
解析:无解析
23 朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法,可以用来预测何种数据型态?
A.数值
B.类别
C.时间
D.以上皆是
正确答案:B ,
解析:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法
24 朴素贝叶斯(Naive Bayes)是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是
A.各类别的先验概率P(C)是相等的
B.以0为均值,sqr(2)/2为标准差的正态分布
C.特征变量X的各个维度是类别条件独立随机变量