一、单选题
1对于分类器的性能,我们需要不同维度来进行综合衡量,以下不属于分类器评价或比较尺度的有?
A.预测准确度
B.查全率
C.模型描述的简洁度
D.计算复杂度
正确答案:C,
解析:模型描述简洁度不属于模型评价指标
2下面有关分类算法的准确率,查全率,F1值的描述,错误的是?
A.准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B查全率回旨检索出的相关文档数和文档库中所有的相关文档数的瞬,衡量的是检索系 统的查全率
C.正确率、查全率和F值取值触0和1之间,数值降国,查准率或查全率就越高
D.为了解决准确率和查全率冲突问题,引入了f1分数
正确答案:C ,
解析:无解析
3回归树是可以日于回归的决策树模型,一个回归树对应着输入空间(即特征空间)的一个划分 以及在划分单元上的输出值。以下哪个指标可用于回归树中的模型上降
A.Adjusted R2
B.F-measure
C.AUC
D.Precision & Recall
正确答案:A,
解析:F-measure. AUC、Precisin & Recall是分类模型的评价指标
4 序列模式挖掘(sequence pattern mining )是指挖掘相对时间或其他模式出现频率高的模式典型的应用还是限于离散型的序列。下列哪个选项不属于序列模式的时限约束? ,
A.最大跨度约束
B.主键约束
C.最小间隔和最大间隔约束
D.窗口大小约束
正确答案:B,
解析:序列模式的时限约束包括最壮度约束、最大间隔和最小间隔约束、窗口大小约束
5 Apriroi算法中,候选序列的个数比候选项集的个数大得多,产生更多候选的原因有?
A.l个项在项集中最多出现一次,但一个事件可以在序列中出现多次
B.一个事件在序列中最多出现一次,但一个项在项集中可以出现多次
C.次序在序列中和项集中都是重要的
D.序列和以合并
正确答案:A,
解析:无解析
6 考虑下面的频繁3-项集的集合:{1, 2. 3}, {1, 2. 4}, {1, 2, 5}, {1, 3, 4}, {1, 3, 5),{1,4,5}, {2, 3, 5}, {3, 4, 5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含:
A.1, 2, 3, 4
B.1, 2, 3, 5
C.1, 2, 4, 5
D.1, 3, 4, 5
正确答案:C,
解析:无解析
7广为流传的“啤酒与尿布”的故事,其背后的模型实际上是哪一类?
A.分类(Classification)
B.分群(Clustering)
C.关联(Assciation)
D.预测(Prediction)
正确答案:C,
解析:"啤酒与尿布”是关联规则的经典故事
8 Apriori算法,最有可能可用来解决以下哪个问题?
A电子商务网站向顾客推荐商品的广告
B.信用卡欺诈识
C.电信用户离网预警
D预测GDP与工业产值之间的关系
正确答案:A,
解析:Apriori算法是关联规则挖掘算法,它利用逐层搜索的迭代方法找出数据库中项集的 关系,以形成规则
9在聚类(Clustering)的问题中,若缄字段属性都是二元属性(Binary Variable),根据下 表,下列何者是Jaccard Coefficient计算数据间品巨离的公式?
答案:A,
10以下哪个选项是分割式聚类算法?
A.K-Means
B.Centroid Metohd
C.Ward's Method
D.以上皆非
正确答案:A,
解析:无解析
11在机器学习中,非监督学习主要用来分类.其中重要的两种就是聚类分析和主成分分析,下列那个选项不是聚类分析的算法
A.Two-Step
Q B.FP-Growth
C.Centrid Method
D.Ward's Method
正确答案:B,
解析:FP-Growth是关联分析算法
12、下列哪种集成方法,会重复抽取训练数据集中的数据,且每笔被抽中的概率始终保持一样?
A.袋装法(Bagging)
B.提升法(Boosting)
C.随机森林(Random Forest)
D.以上皆是
正确答案:A,
解析:无解析
13 提升法Boosting是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting
的集成学习,其代表算法不包括? 9
A.Adaboost
B.GBDT
C.XGBST
D.随机森林
正确答案:D,
解析:Adaboost. GBDT、XGBST都是基于Boosting的集成学习,随机森林是基于 bagging的集成学习
14集成学习bagging,也叫做bootstrap aggreagating,实在原始数据集选择S次后得到S个新数据集的一种技术,其代表算法有:
A.Adaboost
B.GBDT
C.XGBOOST
D随机森林
正确答案:D,
解析:Adaboost、GBDT、XGBST都是基于Boosting的集成学习,随机森林是基于 bagging的集成学习
15.集成学习bagging,也叫做bootstrap aggreagating,实在原始数据集选择S次后得到S个新数据集的一种技术,其代表算法有:
A.分类(Classification)
B.聚类(Clustering)
C.关联(Assciation)
D.归因(Attribution)
答案:A
解析:Adaboost. GBDT、XGBST都是基于Boosting的集成学习,随机森林是基于 bagging的集成学习
16逻辑回归和支持向量机(SVM)都是经典的机器学习模型,逻辑回归和SVM的联系与区别,不正确的是?
A.二者都可以处理分类问题
B二者都可以增加不同的正则化项
C.二者都是参数模型
D.SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类
正确答案:C ,
解析:无解析
17如何以类神经网络仿真逻辑回归
(Logistic Regression)
A.输入层节点个数设定为3
B.隐藏层节点个数设定为0
C.输出层节点个数设定为3
D.隐藏层节点个数设定为1
正确答案:B,
解析:无解析
18类神经网络(ANN),又称人工神经网络,根据计算的连接路径连接信息处理的数学计算模型 或者使用。在进行类神经网络之前,数据要如何做准备?
A.将所有数值属性转成类别属性
B.将所有类别属性直接用0, 1, 2, 3取代成数值型属性
C将数据正规化于0到1之间
D.不需要任何准备
正确答案:C ,
解析:无解析
19 BP(back propagatin)神经网络是1986年由Rumelha盛为首的科学家提出的概念, 是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络。BP神经网络的训练顺序为何? ( A:调整权重;B:计算误差值;C:利用随机的权重产生输出的结果)
A.BCA
B.CAB
C.BAC
D.CBA
正确答案:D ,
解析:无解析
20 在完整的机器学习流程中,数据标准化(Data Standardizatin) 一直是一项重要的处理流程。
不同模型对于数据是否标准化的敏感程度不同,以下哪个模型对变量是否标准化不敏感?
到 A决策树
B.KNN
C.K-Means
D.SVM
正确答案:A,
解析:决策树是非距离类算法
21在决策树算法中,ID3使用哪个度量来进行特征的选择?
A信息熵
B.信息增益比
C.信息增益
D.Gini指数
正确答案:C ,
解析:ID3选用信息增益作为度量,C4.5选用增益率作为度量
22. 决策树由节点和边两种元素组成的结构,决策树中不包含一下哪种结点?
A.根结点(root node)
B.内部结点(internal node)
C.外部结点(external node)
D.叶结点(leaf node)
正确答案:C ,
解析:决策树在逻辑上以树的形式存在,包含根节点、内部结点和叶节点
23.朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概 率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。下列选项不属于朴素贝叶斯分类器特点的是?
A.面对孤立的噪声点,朴素贝叶斯分类器是健壮的
B.面对无关属性,朴素贝叶斯分类器是健壮的。
C.相关属性可能会降低朴素贝叶斯分类器的性能,因为对这些属性,条件独立的假设已不成立。
D.朴素贝叶斯分类不可以把连续的属性离散化