七月在线机器学习单选刷(一)

 

1、一个二进制源X发出符号集为{-1,1},经过离散无记忆信道传输,由于信道中噪音的存在,接收端Y收到符号集为{-1,1,0}。已知P(x=-1)=1/4,P(x=1)=3/4,P(y=-1|x=-1)=4/5,P(y=0|x=-1)=1/5,P(y=1|x=1)=3/4,P(y=0|x=1)=1/4,求条件熵H(Y|X)( )

A 0.7889 bit   B 0.3275 bit      C 0.5273 bit      D 0.5372 bit

思路:主要考察信息熵和条件熵的公式计算。

随机事件 X 所包含的信息量与其发生的概率有关(成反比)。发生的概率越小,其信息量就越大;反之,必定发生的事件(如太阳东升西落),其信息量为 0。
信息量公式:I(X) = −logp(X) ,其中 I 是 information 的缩写。
信息量公式的单位:
log 以2为底,记作lb,单位比特(bit)
log 以e为底,记作ln,单位奈特(nat)
log 以10为底,记作lg,单位哈脱来(hat)
信息熵:随机变量 X 不确定性的度量,是对 X 所有可能值产生的信息量的期望。信息熵公式:

由公式可知:信息熵只与随机变量X的概率分布 p(x) 有关。
条件熵:表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。
条件熵公式:

由选项单位为 bit 可知,log 函数以2为底,故将p(x=-1)=1/4,p(x=1)=3/4,
p(y=0|x=-1)=1/5,p(y=-1|x=-1)=4/5,
p(y=1|x=1)=3/4, p(y=0|x=1)=1/4 代入条件熵公式得:

 

正解:A

 

2、Fisher线性判别函数的求解过程是将M维特征矢量投影在( )中进行求解。

A   M-1维空间       B   一维空间    C   三维空间     D   二维空间

思路:

线性判别分析(Linear Discriminant Analysis)简称 LDA,在二分类问题上最早由Fisher提出,故又称Fisher判别分析。

在二分类问题上,Fisher判别分析的基本思想是:在训练时,将训练样本投影到某条直线上,这条直线可以使得同类型样本的投影点尽可能接近,而异类型样本的投影点尽可能远离。在预测时,将待预测数据投影到训练时学习到的直线上,根据投影点的位置来判断所属于的类别。如图所示:

综上所述,Fisher判别分析可以将二维特征向量投影到一维空间。推广到多分类任务中,Fisher判别分析可以将 M 维特征向量投影到 M-1 维空间,即:Fisher判别函数的求解过程是将M维特征矢量投影到M-1维空间中进行求解。
相当于是减维操作。

补充:Fisher判别分析(即LDA)经常被视为一种经典的监督降维技术。

正解A

3、类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是( )

A 势函数法        B 基于二次准则的H-K算法           C 伪逆法           D 感知器算法

思路:

对于A,势函数法:势函数非线性。
对于B,基于二次准则的H-K算法:在最小均方误差准则下求得权矢量,可以解决非线性问题。
对于C,伪逆法:径向基(RBF)神经网络的训练算法,解决线性不可分的情况。
对于D,感知器算法:线性分类模型。
“不能求解线性不可分情况下的分类问题” 即:“不能求解非线性分类问题”,感知器算法属于线性分类模型,故不能求解非线性分类问题。

汇总:解决非线性问题:势函数法;基于二次准则的H-K算法;伪逆法

           只能解决线性问题:感知器算法。

正确D

 

4、下列哪个不属于CRF模型对于HMM和MEMM模型的优势

A 特征灵活       B 速度快        C 可容纳较多上下文信息           D 全局最优

思路:

HMM模型,即Hidden Markov Model隐马尔可夫模型

MEMM模型,即Maximum Entropy Markov Model最大熵隐马尔可夫模型

CRF模型,即Conditional Random Field,条件随机场

HMM模型是对转移概率和表现概率直接建模,统计共现概率。
而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。
CRF是在给定需要标记的观察序列的条件下,计算整个标记序列
的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。
CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。
CRF需要训练的参数更多,与MEMM和HMM相比,它存在训练代价大、复杂度高的缺点。

正解B

 

5.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是()

A 各类别的先验概率P(C)是相等的

B 以0为均值,sqr(2)/2为标准差的正态分布

C 特征变量X的各个维度是类别条件独立随机变量

D P(X|C)是高斯分布

思路:

朴素贝叶斯(Nave Bayes)的基本假设就是每个变量相互独立。

正解C

 

6、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()

A EM算法

B 维特比算法

C 前向后向算法

D 极大似然估计

解析:

EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
前向后向算法:用来算概率
极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
注意的是在给定观测序列和对应的状态序列估计模型参数,可以利用极大似然发估计。如果给定观测序列,没有对应的状态序列,才用EM,将状态序列看成不可测的隐数据。

有给定观测序列和对应序列估计状态,就用极大似然估计

只有观测序列,就用EM.

正解:D

 

7、假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中不正确的是?

A 模型效果相比无重复特征的情况下精确度会降低

B 如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样

C 无法用两列特征相同时所得到的结论来分析问题

解析:

朴素贝叶斯的条件就是每个变量相互独立。在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分。

此外,若高度相关的特征在模型中引入两次, 这样增加了这一特征的重要性, 则它的性能因数据包含高度相关的特征而下降。正确做法是评估特征的相关矩阵,并移除那些高度相关的特征。 
   
 补充说明 
 C选项已删除前半句话“当两列特征高度相关时,”而高度相关和相同类似,它们都会导致朴素贝叶斯公式对模型的估计不准确,所以C选项描述正确,题目问的是不正确的,故不可以选C。

正确B

 

 

8、以下哪些方法不可以直接来对文本分类?

A Kmeans          B 决策树            C 支持向量机           D KNN

解析:

Kmeans是聚类方法,典型的无监督学习方法。分类是监督学习方法,BCD都是常见的分类方法。

正解C

 

9、已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()

A 主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小

B 在经主分量分解后,协方差矩阵成为对角矩阵

C 主分量分析就是K-L变换

D 主分量是通过求协方差矩阵的特征值得到

解析:

K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协方差矩阵时,等同于PCA。

正解:C

 

10、以下不属于影响聚类算法结果的主要因素有()

A 已知类别的样本质量

B 分类准则

C 特征选取

D 模式相似性测度

解析:

对于A选项,类别已知暂且不说,样本质量是不会影响聚类结果的。因为聚类的任务只是把数据按照相似性原则进行划分,不存在分类问题中由于训练集样本存在噪声数据,从而影响分类结果的情况。
在类别已知的情况下,直接按照样本的类别标签进行聚类就可以了,用不到复杂的聚类算法,所以也就不存在影响聚类算法结果这么一说了。
选项的分类准则是指选取什么特征将该特征相似的数据聚为一类,这个会直接影响到样本聚类的结果;特征选取、相似性测度也是影响聚类算法结果的因素。
正解A
11、模式识别中,不属于马式距离较之于欧式距离的优点的是( )

A 平移不变性

B 尺度不变性

C 考虑了模式的分布

解析:

欧氏距离是在N维空间中两个点的真实距离;马氏距离表示数据的协方差距离。
而欧式距离的特征是:平移不变性、旋转不变性。
马式距离的特征则是:平移不变性、旋转不变性、尺度不变性、不受量纲影响、考虑了模式分布。


所以马式距离相比欧式距离的优点:尺度不变性、不受量纲影响、考虑了模式分布。换句话说,不属于马式距离较之于欧式距离的优点是:平移不变性、旋转不变性。

平移不变性和旋转不变性欧式距离和马氏距离都有

正解A

 

12.

不会对基本K-均值算法产生影响的因素是()

A 样本输入顺序      B 模式相似性测度        C 聚类准则        D 初始类中心的选取

解析:

对于D选项,传统的K均值算法随机选取初始聚类中心,往往会造成聚类结果陷入局部最优解,故改进初始类中心的选取方法可以提升K均值算法的聚类效果。
对于A选项,样本的输入顺序会影响到初始类中心的选取结果。
对于B选项,模式相似性测度是指数据相似性的测量标准,比如通过计算两个数据的欧式距离大小,来判定他们的相似程度,进而确定他们是否属于同类。欧氏距离越小,说明数据越接近,相似性越大。此外,相似性测度还有马氏距离、余弦相似度等,不同的测度会影响到K-均值算法聚类的结果,这和应聘面试是一个道理,不同的用人单位选用不同的标准,同样的你去应聘成功的概率也会不同。


聚类准则:相似的数据被聚为一类。这个准则是不会变的,故不会对K均值算法产生影响,所以答案选C。

正解C

 

13. 在统计模式分类问题中,当先验概率未知时,可以使用以下哪项准则?

A 最小损失准则              B 最小最大损失准则          C 最小误判概率准则

解析:

最小损失准则中需要用到先验概率,不选A;
最小最大损失规则主要是解决在使用最小损失规则时先验概率未知或难以计算的问题的,选B;
最小误判概率准则就是判断p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2为两分类,根据贝叶斯公式,需要用到先验知识,不选C。
补充知识:在贝叶斯决策中,对于先验概率未知时可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

只有最小最大损失准则不需要用到先验概率,而且,针对没有先验概率这种情况也只有这种方法最靠谱。

正解:B

 

14.如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有( )

A 已知类别样本质量           B 分类准则           C 量纲

解析:

A选项,类别已知暂且不说,样本质量是不会影响聚类结果的。因为聚类的任务只是把数据按照相似性原则进行划分,不存在分类问题中由于训练集样本存在噪声数据,从而影响分类结果的情况。此外,在类别已知的情况下,直接按照样本的类别标签进行聚类就可以了,用不到复杂的聚类算法,所以也就不存在影响聚类算法结果这么一说了;
B选项,分类准则是指选取什么特征将该特征相似的数据聚为一类,这个会直接影响到样本聚类的结果;
C选项,两个特征向量的相关系数与其量纲无关,故不选。

正解:B

 

15.以下属于欧式距离特性的有()

A 旋转不变性    B 尺度缩放不变性   C 不受量纲影响的特性

解析:参见本帖第11题

正解A

 

16.以下( )不属于线性分类器最佳准则?

A 感知准则函数      B 贝叶斯分类       C 支持向量机          D Fisher准则

解析:

线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。(使用核函数可解决非线性问题)
Fisher 准则 :更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。
根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。

贝叶斯分类器是非线性的

正解B

 

17.关于 logit 回归和 SVM 不正确的是()

A Logit回归目标函数是最小化后验概率

B Logit回归可以用于预测事件发生概率的大小

C SVM可以实现结构风险最小化

D SVM可以有效避免模型过拟合

解析:

以二项logit回归为例,其模型为:

logit回归的目标函数是对数似然函数 L(w),故A错误:

通过梯度下降法或拟牛顿法最大化目标函数L(w),从而估计模型参数w的值。
朴素贝叶斯算法是最大化后验概率,贝叶斯公式即后验概率公式:

P(θ) 是在没有数据支持下,θ 发生的概率:先验概率
P(θ|x) 是在数据X的支持下,θ 发生的概率:后验概率
p(x|θ) 是给定参数 θ 的概率分布:似然函数

logit回归输出的是Y属于某一类的概率,也可以表示某事件发生的概率,B正确。
SVM通过寻找使得训练数据尽可能分开且分类间隔最大的超平面实现结构风险最小化,C正确。
SVM通过减小惩罚参数C来避免过拟合,因为C越大,分类就越苛刻,越容易过拟合,D正确。
正解A

18.

9、有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是( )

A  2x+y=4    B  x+2y=5      C  x+2y=3      D  2x-y=0

解析:

这道题简化了,对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数-1/((-1-3)/(0-2)) = -1/2, 可得y=-(1/2)x + c, 过中点((0+2)/2, (-1+3)/2) = (1, 1), 可得c=3/2, 故选C.

正解C

19.下面有关分类算法的准确率,召回率,F1 值的描述,错误的是?

A 准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率

B 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率

C 正确率、召回率和 F 值取值都在0和1之间,数值越接近0,查准率或查全率就越高

D 为了解决准确率和召回率冲突问题,引入了F1分数

思路:

对于二类分类问题常用的评价指标是精准度(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
由此:
精准率定义为:P = TP / (TP + FP)
召回率定义为:R = TP / (TP + FN)
F1值定义为: F1 = 2 P R / (P + R)
精准率和召回率和F1取值都在0和1之间,精准率和召回率高,F1值也会高,不存在数值越接近0越高的说法,应该是数值越接近1越高。

正确C

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值