《数据挖掘与机器学习》—— 第四章 分类算法作业

第四章 分类算法作业

快捷查找:Ctrl+F   在搜索框中输入题目

一. 单选题(共16题)

1. (单选题)以下两种描述分别对应哪两种对分类算法的评价标准?

(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, Recall

B. Recall, Precision

C. Precision, ROC

D. Recall, ROC

答案: A:Precision, Recall 

2. (单选题)下列选项中,识别模式与其他不一样的是(  )

A. 用户年龄分布判断:少年、青年、中年、老年

B. 医生给病人诊断发病类型

C. 投递员分拣信件

D. 消费者类型判断:高消费、一般般消息、低消费

E. 出行方式判断:步行、骑车、坐车

答案: E:出行方式判断:步行、骑车、坐车  

3. (单选题)鸢尾花的预测,课堂上是使用什么技术解决问题的?

A. 分类

B. 聚类

C. 关联规则

D. 回归分析

答案: A: 分类  

4. (单选题)以下哪些算法是分类算法:

A. DBSCAN

B. Logistic regression

C. K-Mean

D. EM

答案: B:Logistic regression  

5. (单选题)我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以(   )

A.增加树的深度   

B. 增加学习率 (learning rate)  

C. 减少树的深度  

D. 减少树的数量

答案: C: 减少树的深度  

6. (单选题)当数据样本的特征属性为自然数时,应采用以下那种算法进行分类

A. 高斯朴素贝叶斯

B. 多项式朴素贝叶斯

C. 贝努利朴素贝叶斯

D. K均值算法

答案: A:高斯朴素贝叶斯  

7. (单选题)一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:(   )

A. 二分类问题    

B. 多分类问题

C. 层次聚类问题  

D. k-中心点聚类问题

答案: B: 多分类问题 

8. (单选题)下列代码实现的功能是:>>> from sklearn.naive_bayes import GaussianNB>>> gnb = GaussianNB()>>>y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)

A. 创建高斯朴素贝叶斯模型并对模型进行训练

B. 创建高斯朴素贝叶斯模型并对模型进行预测

C. 创建高斯朴素贝叶斯模型并对模型进行训练和预测

D. 创建高斯朴素贝叶斯模型并对模型进行训练和评测

答案: C:创建高斯朴素贝叶斯模型并对模型进行训练和预测  

9. (单选题)一般,KNN最近邻方法在()的情况下效果较好?

A. 样本较多但典型性不好

B. 样本较少但典型性好

C. 样本呈团状分布

D. 样本呈链状分布

答案: B:样本较少但典型性好  

10. (单选题)下列代码实现的创建Knn算法的是:

A. knn = KNeighborsClassifier()

B. knn = load_KNeighborsClassifier()

C. knn = KNN

D. knn = KNN()

答案: A: knn = KNeighborsClassifier()  

11. (单选题)决策树中不包含以下哪种节点?(   )

A. 根节点  

B. 内部节点  

C. 外部节点

D. 叶节点

答案: C:外部节点  

12. (单选题)NaveBayes是Bayes分类器的一种,如特征变量是X,类别标签是C,它的假定是(   )

A. 各类别的先验概率P(C)是相等的  

B. 以0为均值. sqr(2)/2为标准差的正态分布  

C. 特征变量X的各个维度是类别条件独立随机变量  

D. P(X|C)是高斯分布

答案: C:特征变量X的各个维度是类别条件独立随机变量  

13. (单选题)以下哪些分类方法可以较好地避免样本的不平衡问题(  )

A. KNN  

B. SVM    

C. 朴素贝叶斯  

D. 神经网络

答案: A:KNN  

14. (单选题)常见的分类算法不包括(   )

A. 线性回归  

B. 逻辑回归  

C. 贝叶斯算法  

D. K-近邻算法

答案: A:线性回归  

15. (单选题)下面有关分类算法的准确率,召回率,F1 值的描述,错误的是?

A. 准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率

B. 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率

C. 正确率、召回率和 F 值取值都在 0 和 1 之间,数值越接近 0,查准率或查全率就越高

D. 为了解决准确率和召回率冲突问题,引入了F1分数

答案: C: 正确率、召回率和 F 值取值都在 0 和 1 之间,数值越接近 0,查准率或查全率就越高 

16. (单选题)概率论中P(A|B)表示什么意思?(   )

A. A事件发生情况下B事件的概率

B. B事件发生的情况下A事件发生的概率

C. A事件和B事件同时发生的概率

D. A事件或者B事件发生的概率

答案: B.B事件发生的情况下A事件发生的概率 

二. 多选题(共2题)

17. (多选题)我们知道二元分类的输出是概率值。一般设定输出概率大于或等于 0.5,则预测为正类;若输出概率小于 0.5,则预测为负类。那么,如果将阈值 0.5 提高,例如 0.6,大于或等于 0.6 的才预测为正类。则准确率(Precision)和召回率(Recall)会发生什么变化(  )?

A. 准确率(Precision)增加或者不变

B. 准确率(Precision)减小

C. 召回率(Recall)减小或者不变

D. 召回率(Recall)增大

答案: AC:准确率(Precision)增加或者不变; 召回率(Recall)减小或者不变 

18. (多选题)假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是(   )

A. 这个被重复的特征在模型中的决定作用会被加强

B. 模型效果相比无重复特征的情况下精确度会降低

C. 如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样

D. 当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题

答案: BD:模型效果相比无重复特征的情况下精确度会降低 ; 当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题

三. 判断题(共2题)

19. (判断题)对于 PCA 处理后的特征,其朴素贝叶斯特征相互独立的假设一定成立,因为所有主成分都是正交的,所以不相关。

A. 对

B. 错

答案: 错 

20. (判断题)分类规则的挖掘方法通常有:决策树法、贝叶斯法、KNN算法。

A. 对

B. 错

答案: 对

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值