欢迎大家一起探讨~
1.二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是()(注:0,1不是类别标签,而是模型预测结果是正确还是错误的意思)
A集成提高了性能
B集成没有效果
C集成降低了性能
D集成效果不能确定
正确答案:A
2.
以下几种模型方法属于判别式模型的有
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
A1,4
B3,4
C2,3
D1,2
正确答案:C
解析:
产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:
对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)
产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。
生成模型:关注数据是如何生成的, 判别模型:关注类别之间的差别 典型的生成模型: - 朴素贝叶斯分类器 - 马尔可夫模型 - 高斯混合模型 典型的判别模型: - k近邻法 - 感知机 - 区分度训练 - logistic 回归 - 最大熵模型 - SVM - boosting方法 - 条件随机场
3.
下面关于贝叶斯分类器描述错误的是( )
A以贝叶斯定理为基础
B是基于后验概率,推导出先验概率
C可以解决有监督学习的问题
D可以用极大似然估计法解贝叶斯分类器
正确答案:B
解析:贝叶斯分类器是以贝叶斯定理为基础,基于先验概率,推导出后验概率的,可以解决有监督学习的问题,可以用极大似然估计法解贝叶斯分类器
4.机器学习中L1正则化和L2正则化的区别是?
A使用L1可以得到稀疏的权值
B使用L1可以得到平滑的权值
C使用L2可以得到稀疏的权值
D使用L2可以得到平滑的权值
正确答案:AD
5.在统计模式识分类问题中,当先验概率未知时,可以使用()
A最小损失准则
BN-P判决
C最小最大损失准则
D最小误判概率准则
正确答案:BC
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
而最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
6.有关机器学习分类算法的Precision和Recall,以下定义中正确的是(假定tp = true positive, tn = true negative, fp = false positive, fn = false negative)
A.Precision= tp / (tp + fp), Recall = tp / (tp + fn)
B.Precision = tp / (tn + fp), Recall = tp /(tp + fn)
C.Precision = tp / (tn + fn), Recall = tp /(tp + fp)
D.Precision = tp / (tp + fp), Recall = tp /(tn + fn)
正确答案:A
精确率(precision)的公式是 Precision= tp / (tp + fp), 它计算的是所有"正确被检索的样本(TP)"占所有"实际被检索到的样本(TP+FP)"的比例;
召回率(recall)的公式是 Recall = tp / (tp + fn), 它计算的是所有"正确被检索的样本(TP)"占所有"应该检索到的正确样本(TP+FN)"的比例。
7.一般,k-NN最近邻方法在( )的情况下效果较好
A样本较多但典型性不好
B样本较少但典型性好
C样本呈团状分布
D样本呈链状分布
正确答案:B
8.假如你用logistic Regression 算法去预测用户在网上的购买项目,然而,当你在新的用户集上验证你的假设时,你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差,下面那些步骤你应该采纳,选择出正确的选项()
A尝试着减小正则项 λ
B尝试增加交叉特征
C减小样本量
D尝试更小的测试集或者特征
正确答案:AB
9.以下描述错误的是:
ASVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)
B在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
C在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
D聚类分析可以看作是一种非监督的分类。
正确答案:ABC
1、SVM的策略就是最大间隔分类器
2、簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。
3、训练误差减少与测试误差逐渐增大,是明显的过拟合的特征。