七月在线机器学习笔试题错题记录1

解析:

随机事件 X 所包含的信息量与其发生的概率有关。发生的概率越小,其信息量就越大;反之,必定发生的事件(如太阳东升西落),其信息量为 0。
信息量公式:I(X) = −logp(X) ,其中 I 是 information 的缩写。
信息量公式的单位:
log 以2为底,记作lb,单位比特(bit)
log 以e为底,记作ln,单位奈特(nat)
log 以10为底,记作lg,单位哈脱来(hat)
信息熵:随机变量 X 不确定性的度量,是对 X 所有可能值产生的信息量的期望。
信息熵公式:

由公式可知:信息熵只与随机变量X的概率分布 p(x) 有关。
条件熵:表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。
条件熵公式:

由选项单位为 bit 可知,log 函数以2为底,故将p(x=-1)=1/4,p(x=1)=3/4,p(y=0|x=-1)=1/5,p(y=1|x=1)=3/4,p(y=0|x=1)=1/4 代入条件熵公式得:

 解析:

对于A,势函数法:势函数非线性。
对于B,基于二次准则的H-K算法:在最小均方误差准则下求得权矢量,可以解决非线性问题。
对于C,伪逆法:径向基(RBF)神经网络的训练算法,解决线性不可分的情况。

对于D,感知器算法:线性分类模型。
“不能求解线性不可分情况下的分类问题” 即:“不能求解非线性分类问题”,感知器算法属于线性分类模型,故不能求解非线性分类问题。

解析:

HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化。CRF模型中,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
    CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。CRF需要训练的参数更多,与MEMM和HMM相比,它存在训练代价大、复杂度高的缺点。

解析:

EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
前向后向算法:用来算概率
极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
注意的是在给定观测序列和对应的状态序列估计模型参数,可以利用极大似然发估计。如果给定观测序列,没有对应的状态序列,才用EM,将状态序列看不不可测的隐数据。

解析:

对于D选项,传统的K均值算法随机选取初始聚类中心,往往会造成聚类结果陷入局部最优解,故改进初始类中心的选取方法可以提升K均值算法的聚类效果。
对于A选项,样本的输入顺序会影响到初始类中心的选取结果。
对于B选项,模式相似性测度是指数据相似性的测量标准,比如通过计算两个数据的欧式距离大小,来判定他们的相似程度,进而确定他们是否属于同类。欧氏距离越小,说明数据越接近,相似性越大。此外,相似性测度还有马氏距离、余弦相似度等,不同的测度会影响到K-均值算法聚类的结果,这和应聘面试是一个道理,不同的用人单位选用不同的标准,同样的你去应聘成功的概率也会不同。
聚类准则:相似的数据被聚为一类。这个准则是不会变的,故不会对K均值算法产生影响,所以答案选C。

解析:

最小损失准则中需要用到先验概率,不选A;
最小最大损失规则主要是解决在使用最小损失规则时先验概率未知或难以计算的问题的,选B;
最小误判概率准则就是判断p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2为两分类,根据贝叶斯公式,需要用到先验知识,不选C。


补充知识:在贝叶斯决策中,对于先验概率未知时可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

解析:

A正确。考虑加入正则化项的原因:想象一个完美的数据集,y>1是正类,y<-1是负类,决策面y=0,加入一个y=-30的正类噪声样本,那么决策面将会变“歪”很多,分类间隔变小,泛化能力减小。加入正则项之后,对噪声样本的容错能力增强,前面提到的例子里面,决策面就会没那么“歪”了,使得分类间隔变大,提高了泛化能力。

B正确。

C错误。间隔应该是2/||w||才对,后半句应该没错,向量的模通常指的就是其二范数。

D正确。考虑软间隔的时候,C对优化问题的影响就在于把a的范围从[0,+inf]限制到了[0,C]。C越小,那么a就会越小,目标函数拉格朗日函数导数为0可以求出w=求和ai∗yi∗xi,a变小使得w变小,因此间隔2/||w||变大

解析:

L1范数是向量中各个元素的绝对值之和,又叫稀疏规则算子。L1正则化通过向代价函数中添加权重向量的L1范数(即正则化项),使得优化后的模型中无用特征对应的权值变为0,相当于减少了特征维数,实现了特征的自动选择,所以LR中加入L1范数可以进行特征选择、解决维度灾难问题、加快计算速度;
L2范数是向量中各个元素平方和的1/2次方。L2正则化通过向代价函数中添加权重向量的L2范数,使得优化后的模型中所有的权值w尽可能趋于0但不为0,通过L2范数,可以实现对模型空间的限制,从而在一定程度上避免了过拟合;


过拟合的时候,拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大, 在某些小区间里,函数值的变化很大,也就是w非常大。所以LR中加入L2范数可以在一定程度上防止过拟合;
在LR中同时加入L1和L2范数不会产生结果更准确的效果。

解析:

AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值。
MA模型(moving average model)滑动平均模型,其中使用趋势移动平均法建立直线趋势的预测模型。
ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。
GARCH模型称为广义ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型,相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性作用,其意义很多时候超过了对数值本身的分析和预测。

解析:

传统K均值算法随机选取初始聚类中心,往往会造成聚类结果陷入局部最优解,改进初始类中心的选取方法可以提升K均值算法的聚类效果,获得全局最优解。

A选项,尝试为不同的质心初始化实际就是在寻找最佳的初始类中心以便达到全局最优;
B选项,迭代的次数太少无法获得最优解,同样也无法获得全局最优解,所以需要通过调整迭代次数来获得全局最优解;
C选项,集群的最佳数量也就是K值是人为定义的,事先不知道多大的K值能够得到全局最优,所以需要调试K值,以达到全局最优。

综上所述,D选项为正确答案。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值