机器学习笔试题(二)

本文讨论了二分类任务中的集成方法、不同模型(如判别式模型中的条件随机场和区分度训练)及其应用,涉及贝叶斯分类器、L1和L2正则化的特点,以及Precision/Recall和k-NN算法的性能。还提到了在预测问题中调整参数和避免过拟合的方法。
摘要由CSDN通过智能技术生成

欢迎大家一起探讨~

1.二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是()(注:0,1不是类别标签,而是模型预测结果是正确还是错误的意思)

A集成提高了性能

B集成没有效果

C集成降低了性能

D集成效果不能确定

正确答案:A

2.

以下几种模型方法属于判别式模型的有

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

A1,4

B3,4

C2,3

D1,2

正确答案:C

解析:

产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:

对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)
产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。

生成模型:关注数据是如何生成的, 判别模型:关注类别之间的差别 典型的生成模型: - 朴素贝叶斯分类器 - 马尔可夫模型 - 高斯混合模型 典型的判别模型: - k近邻法 - 感知机 - 区分度训练 - logistic 回归 - 最大熵模型 - SVM - boosting方法 - 条件随机场

3.

下面关于贝叶斯分类器描述错误的是( )

A以贝叶斯定理为基础

B是基于后验概率,推导出先验概率

C可以解决有监督学习的问题

D可以用极大似然估计法解贝叶斯分类器

正确答案:B

解析:贝叶斯分类器是以贝叶斯定理为基础,基于先验概率,推导出后验概率的,可以解决有监督学习的问题,可以用极大似然估计法解贝叶斯分类器

4.机器学习中L1正则化和L2正则化的区别是?

A使用L1可以得到稀疏的权值

B使用L1可以得到平滑的权值

C使用L2可以得到稀疏的权值

D使用L2可以得到平滑的权值

正确答案:AD

5.在统计模式识分类问题中,当先验概率未知时,可以使用()

A最小损失准则

BN-P判决

C最小最大损失准则

D最小误判概率准则

正确答案:BC

在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。

1. p(y)已知,直接使用贝叶斯公式求后验概率即可;

2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。

6.有关机器学习分类算法的Precision和Recall,以下定义中正确的是(假定tp = true positive, tn = true negative, fp = false positive, fn = false negative)

A.Precision= tp / (tp + fp), Recall = tp / (tp + fn)

B.Precision = tp / (tn + fp), Recall = tp /(tp + fn)

C.Precision = tp / (tn + fn), Recall = tp /(tp + fp)

D.Precision = tp / (tp + fp), Recall = tp /(tn + fn)

正确答案:A

精确率(precision)的公式是 Precision= tp / (tp + fp), 它计算的是所有"正确被检索的样本(TP)"占所有"实际被检索到的样本(TP+FP)"的比例;

召回率(recall)的公式是 Recall = tp / (tp + fn), 它计算的是所有"正确被检索的样本(TP)"占所有"应该检索到的正确样本(TP+FN)"的比例。

7.一般,k-NN最近邻方法在( )的情况下效果较好

A样本较多但典型性不好

B样本较少但典型性好

C样本呈团状分布

D样本呈链状分布

正确答案:B

8.假如你用logistic Regression 算法去预测用户在网上的购买项目,然而,当你在新的用户集上验证你的假设时,你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差,下面那些步骤你应该采纳,选择出正确的选项()

A尝试着减小正则项 λ

B尝试增加交叉特征

C减小样本量

D尝试更小的测试集或者特征

正确答案:AB

9.以下描述错误的是:

ASVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)

B在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

C在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

D聚类分析可以看作是一种非监督的分类。

正确答案:ABC

1、SVM的策略就是最大间隔分类器

2、簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。

3、训练误差减少与测试误差逐渐增大,是明显的过拟合的特征。

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值