python-机器学习练习 (7-20)【1】

Date: 2019-07-20

1. 一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:(多分类问题)。

补充 :

其实单要从实用的角度来讲,二分类足够了,因为人脸识别系统只需要做到识别:合法身份和非法身份,前者准入,后者不准入或者报警。

但是从题目本意来说,是一个多分类问题。

2. 在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果(可以做特征选择,并在一定程度上防止过拟合)

补充:

L1范数是指向量中各个元素绝对值之和,用于特征选择

L2范数 是指向量各元素的平方和然后求平方根,用于 防止过拟合,提升模型的泛化能力;

L1范数具有系数解的特性,但是要注意的是,L1没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要,再通过交叉验证。
为什么L1,L2范数可以防止过拟合呢
在代价函数后面加上正则项,L1即是Losso回归,L2是岭回归
但是它为什么能防止过拟合呢?
奥卡姆剃刀原理:能很好的拟合数据且模型简单
模型参数在更新时,正则项可使参数的绝对值趋于0,使得部分参数为0,降低了模型的复杂度(模型的复杂度由参数决定),从而防止了过拟合。提高模型的泛化能力

3. SVM CRF 最大熵 是监督学习;k-means是无监督学习。

补充:

简单来说,基于已知类别的样本调整 分类 器 的参数,使其达到所要求性能的过程,称为监督学习;对没有分类标记的训练样本进行学习,以发现训练样本集中的结构性知识的过程,成为非监督学习。

其中,k-means为是最为经典的基于划分的无监督学习聚类方法。

CRF是条件随机场,主要用在语音识别和文本识别,前提,一个标记了的观察序列,计算需要验证的标签序列的联合概率。这里就有了标记集合和识别集合的概念,所以是监督室学习。

4. k-means是一种经典的聚类算法。

5. 深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是()

(AB)C和A(BC)中的(AB)C. (解析见昨天的博客)

6. 以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:(C)

A.logistic回归

B.SVM

C.树形模型(树模型,对数据量纲不敏感,因此不需要数据归一化 )

D.神经网络

解释:

当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;在梯度下降进行求解时能较快的收敛。

* 所以,使用梯度下降法求解最优解的模型,归一化就非常重要!knn,logistc回归,gbdt,xgboost,adaboost

* 还有一些模型是基于距离的,所以量纲对模型影响较大,就需要归一化数据,*处理特征之间的权重问题,这样可以提高计算精度。比如,knn,svm,kmeans,k近邻,主成分分析

* 神经网络对数据分布本无要求,但归一化可以加快训练数据

* 那么不需要归一化处理的模型,决策树,随机森林。他们因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率

7. 有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是(x+2y=3)

解析见昨天的博客

8. 

以下几种模型方法属于判别式模型的有(2,3)

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

* 产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:

对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)

产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。

* 公式上看

生成模型: 学习时先得到 P(x,y),继而得到 P(y|x)。预测时应用最大后验概率法(MAP)得到预测类别 y。 

判别模型: 直接学习得到P(y|x),利用MAP得到 y。或者直接学得一个映射函数 y=f(x)。

直观上看

生成模型: 关注数据是如何生成的 
判别模型: 关注类别之间的差别

                           

9. 考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度:

答案: s({e}) =0.8s({b, d})= 0.2s({b, d, e})= 0.2

置信度计算规则为: 同时购买商品A和商品B的交易次数/购买了商品A的次数

支持度计算规则为: 同时购买了商品A和商品B的交易次数/总的交易次数

10. 

如下表是用户是否使用某产品的调查结果(学历)  (解析见昨天的博客)

UID年龄地区学历收入用户是否使用调查产品
1北方博士
2北方本科
3南方本科
4北方研究生


请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性(Log23≈0.63)

11.  在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题(D)

A.增加训练集量

B.减少神经网络隐藏层节点数

C. 删除稀疏的特征 S

D.SVM算法中使用高斯核/RBF核代替线性核

解释: 

造成过拟合的原因主要有:

1、训练数据不足,有限的训练数据

2、训练模型过度导致模型非常复杂,泛化能力差

选项A增加训练集可以解决训练数据不足的问题,防止过拟合

选项B对应使得模型复杂度降低,防止过拟合

选项C类似主成分分析,降低数据的特征维度,使得模型复杂度降低,防止过拟合

选项D使得模型的复杂化,会充分训练数据导致过拟合

12. 关于 logit 回归和 SVM 不正确的是(A)

A.Logit回归目标函数是最小化后验概率

B.Logit回归可以用于预测事件发生概率的大小

C.SVM目标是结构风险最小化

D,SVM可以有效避免模型过拟合

解释:A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化,严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。

13. 类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?B

A.伪逆法

B.感知器算法

C.基于二次准则的H-K算法

D.势函数法

解释:

伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。

感知器算法:线性分类模型。

H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。

势函数法:势函数非线性。

14. 在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计(D)

A.EM算法

B.维特比算法

C.前向后向算法

D.极大似然估计

解释:

EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法

维特比算法: 用动态规划解决HMM的预测问题,不是参数估计(维特比算法解决的是给定 一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。如通过海藻变化(输出序列)来观测天气(状态序列),是预测问题,通信中的解码问题 Baum-Welch算法解决的是一个模型训练问题,即参数估计,是一种无监督的训练方法,主要通过EM迭代实现;)

前向后向:用来算概率

极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数

15.  一般,k-NN最近邻方法在(B)的情况下效果较好

A.样本较多但典型性不好

B.样本较少但典型性好

C.样本呈团状分布

D.样本呈链状分布

补充:样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。

16. 下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测(D)

A.AR模型

B.MA模型

C.ARMA模型

D.GARCH模型

解释:

AR模型:自回归模型,是一种线性模型

MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型

ARMA模型:自回归滑动平均模型,拟合较高阶模型

GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测;

AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值。

MA模型(moving average model)滑动平均模型,模型参量法谱分析方法之一。

ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。

GARCH模型称为广义ARCH模型,是ARCH模型的拓展, GARCH对误差的 方差进行了进一步的建模,特别适用于波动性的分析和 预测

* GARCH模型称为广义ARCH模型,是ARCH模型的拓展,由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型,相当于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订做的回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性作用,其意义很多时候超过了对数值本身的分析和预测。

17. 下面有关序列模式挖掘算法的描述,错误的是?(C)

A.AprioriAll算法和GSP算法都属于Apriori类算法,都要产生大量的候选序列

B.FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库

C.在时空的执行效率上,FreeSpan比PrefixSpan更优

D.和AprioriAll相比,GSP的执行效率比较高

解释: 

1. Apriori算法 :关联分析原始算法,用于从候选项集中发现频繁项集。两个步骤:进行自连接、进行剪枝。缺点:无时序先后性。

AprioriAll算法:AprioriAll算法与Apriori算法的执行过程是一样的,不同点在于候选集的产生,需要区分最后两个元素的前后。

AprioriSome算法:可以看做是AprioriAll算法的改进

AprioriAll算法和AprioriSome算法的比较:

(1)AprioriAll用 去计算出所有的候选Ck,而AprioriSome会直接用 去计算所有的候选 ,因为 包含 ,所以AprioriSome会产生比较多的候选。

(2)虽然AprioriSome跳跃式计算候选,但因为它所产生的候选比较多,可能在回溯阶段前就占满内存。

(3)如果内存占满了,AprioriSome就会被迫去计算最后一组的候选。

(4)对于较低的支持度,有较长的大序列,AprioriSome算法要好些。

2. GPS算法:类Apriori算法。用于从候选项集中发现具有时序先后性的频繁项集。两个步骤:进行自连接、进行剪枝。缺点:每次计算支持度,都需要扫描全部数据集;对序列模式很长的情况,由于其对应的短的序列模式规模太大,算法很难处理。

3. SPADE算法:改进的GPS算法,规避多次对数据集D进行全表扫描的问题。与GSP算法大体相同,多了一个ID_LIST记录,使得每一次的ID_LIST根据上一次的ID_LIST得到(从而得到支持度)。而ID_LIST的规模是随着剪枝的不断进行而缩小的。所以也就解决了GSP算法多次扫描数据集D问题。

4.  FreeSpan算法:即频繁模式投影的序列模式挖掘。核心思想是分治算法。基本思想为:利用频繁项递归地将序列数据库投影到更小的投影数据库集中,在每个投影数据库中生成子序列片断。这一过程对数据和待检验的频繁模式集进行了分割,并且将每一次检验限制在与其相符合的更小的投影数据库中。

优点:减少产生候选序列所需的开销。缺点:可能会产生许多投影数据库,开销很大,会产生很多的

5. PrefixSpan 算法:从FreeSpan中推导演化而来的。收缩速度比FreeSpan还要更快些。

http://blog.csdn.net/ztf312/article/details/50889238

18. 关于支持向量机SVM,下列说法错误的是(C)

A.L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力

B.Hinge 损失函数,作用是最小化经验分类错误

C.分类间隔为1/||w||,||w||代表向量的模(解析见昨天博客)

D.当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习

19. 在对问题的解空间树进行搜索的方法中,一个结点有多次机会成为活结点的是:(回朔法)

动态规划、回朔法、分支限界法、回朔法和分支界限法

解析: 

分支限界法思想

  1. 以广度优先或以最小耗费(最大效益)优先的方式搜索问题的解空间树
  2. 分支限界法中,每一个活结点只有一次机会成为扩展结点,活结点一旦成为扩展结点,就一次性产生其所有儿子结点,其中导致不可行解或导致非最优解的儿子结点被舍弃,其余儿子结点被加入活结点表中
  3. 然后从活结点表中取下一结点成为当前扩展结点
  4. 重复上述结点扩展过程,直至到找到所需的解或活结点表为空时为止

从中可以看出,广度优先且不满足的被舍弃,满足的找其儿子节点,所以其不可能再次成为活结点

回溯法:深度优先自然可以回到此节点。

20. 以下哪些学科和数据挖掘有密切联系(C D)

A.计算机组成原理

B.矿产挖掘

C.统计

D.人工智能

21. 以下描述错误的是:(ABC)

A.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)

B.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

C.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

D.聚类分析可以看作是一种非监督的分类。

解释:

1、SVM的策略就是最大间隔分类器

2、簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。

3、训练误差减少与测试误差逐渐增大,是明显的过拟合的特征。

22. 在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下合适的处理方法是(ACD)

A.将负样本重复10次,生成10w样本量,打乱顺序参与分类

B.直接进行分类,可以最大限度利用数据

C.从10w正样本中随机抽取1w参与分类

D.将负样本每个权重设置为10,正样本权重为1,参与训练过程

解释:

解决这类问题主要分重采样、欠采样、调整权值

1. 重采样。

A可视作重采样的变形。改变数据分布消除不平衡,可能导致过拟合。

2. 欠采样。

C的方案 提高少数类的分类性能,可能丢失多数类的重要信息。

如果1:10算是均匀的话,可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式,因而相对比较合理。

另:如果目标是 预测的分布 跟训练的分布一致,那就加大对分布不一致的惩罚系数。

3. 权值调整。

D方案也是其中一种方式。

http://blog.csdn.net/ztf312/article/details/50893967

23. 机器学习中做特征选择时,可能用到的方法有?ABCD

A.卡方

B.信息增益

C.平均互信息

D.期望交叉熵

特征提取算法

特征提取算法分为特征选择和特征抽取两大类

特征选择

常采用特征选择方法。常见的六种特征选择方法:

  1. DF(Document Frequency) 文档频率
    DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性

  2. MI(Mutual Information) 互信息法
    互信息法用于衡量特征词与文档类别直接的信息量。
    如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
    相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

  3. (Information Gain) 信息增益法
    通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

  4. CHI(Chi-square) 卡方检验法
    利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
    如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

  5. WLLR(Weighted Log Likelihood Ration)加权对数似然

  6. WFO(Weighted Frequency and Odds)加权频率和可能性

特征抽取(降维)

PCA等

24. 影响聚类算法效果的主要原因有:(ABC)

A.特征选取

B.模式相似性测度

C.分类准则

D.已知类别的样本质量

解释博客:http://www.docin.com/p-756247716.html

D之所以不正确,是因为聚类是对无类别的数据进行聚类,不使用已经标记好的数据。

25. 关于线性回归的描述,以下正确的有:(BCE)

A.基本假设包括随机干扰项是均值为0,方差为1的标准正态分布

B.基本假设包括随机干扰项是均值为0的同方差正态分布

C.在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量

D.在违背基本假设时,模型不再可以估计

E.可以用DW检验残差是否存在序列相关性

F.多重共线性会使得参数估计值方差减小

解释:一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。

所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响

(1)完全共线性下参数估计量不存在

(2)近似共线性下OLS估计量非有效

多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)

(3)参数估计量经济含义不合理

(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外

(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

26.  下面哪些是基于核的机器学习算法?(BCD)

A. Expectation Maximization
B. Radial Basis Function
C. Linear Discrimimate Analysis
D. Support Vector Machine

27.假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:(BD)

A.这个被重复的特征在模型中的决定作用会被加强

B.模型效果相比无重复特征的情况下精确度会降低

C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。

D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题

E.NB可以用来做最小二乘回归

解释:主要原因就是由于存在重复的类别之后,破坏了原本的独立性假设。。

NB的核心在于它假设向量的所有分量之间是独立的。在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分。

28. Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:(特征变量X的各个维度是类别条件独立随机变量)

29. 以下哪个模型是生成式模型:A

A.贝叶斯模型

B.逻辑回归

C.SVM

D.条件随机场

30. 

以下几种模型方法属于判别式模型的有(23)

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

31. 以下哪些方法不可以直接来对文本分类?A

A.Kmeans

B.决策树

C.支持向量机

D.KNN

这道题不仅仅考察的是分类方法和聚类方法,更是考察有监督的方法和无监督的方法;Kmeans是聚类方法,典型的无监督学习方法。分类是监督学习方法、

32. 类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?B

A.伪逆法

B.感知器算法

C.基于二次准则的H-K算法

D.势函数法

解释:

伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。

感知器算法:线性分类模型。

H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。

势函数法:势函数非线性。

33. 贝叶斯、高斯模型、HMM是生成模型,但SVM、CRF、逻辑回归是判别模型。

34. 下列哪个不属于CRF模型对于HMM和MEMM模型的优势( B)

A. 特征灵活

B.速度快

C.可容纳较多上下文信息

D.全局最优

解释:1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样) ————与HMM比较
(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ­­————与MEMM比较
(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较

缺点:训练代价大、复杂度高

CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优

CRF 的缺点:速度慢

35. 下列不是SVM核函数的是:B

A.多项式核函数

B.logistic核函数

C.径向基核函数

D.Sigmoid核函数

解释:SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数

36. 以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是(A)

A.PDF描述的是连续型随机变量在特定取值区间的概率

B.CDF是PDF在特定区间上的积分

C.PMF描述的是离散型随机变量在特定取值点的概率

D.有一个分布的CDF函数H(x),则H(a)等于P(X<=a)

解释:

概率质量函数 (probability mass function,PMF)是离散随机变量在各特定取值上的概率。

概率密度函数(p robability density function,PDF )是对 连续随机变量 定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。

累积分布函数(cumulative distribution function,CDF) 能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对於所有实数x ,与pdf相对。

37. 下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测是:

GARCH模型

解析:

AR模型:自回归模型,是一种线性模型

MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型

ARMA模型:自回归滑动平均模型,拟合较高阶模型

GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测

38. 均值移动(Mean Shift)算法的核心思想是:  找到概率密度梯度为零的采样点,并以此作为特征空间聚类的模式点。

39. 机器学习中L1正则化和L2正则化的区别是?

* 使用L1可以得到稀疏的权值

* 使用L2可以得到平滑的权值

40. 以下哪些学科和数据挖掘有密切联系()

统计(统计中的概率学 )

人工智能(机器学习算法)

41. 数据挖掘的挖掘方法包括:( )

聚类分析 + 回归分析 + 神经网络 + 决策树算法

42. 下列方法中,可以用于特征降维的方法包括()

主成分分析PCA + 线性判别分析LDA + 深度学习SparseAutoEncoder +  矩阵奇异值分解SVD 

解析:AutoEncoder的结构与神经网络的隐含层相同,由输入L1,输出 L2组成,中间则是权重连接。Autoencoder通过L2得到输入的重构L3,最小化L3与L1的差别 进行训练得到权重。在这样的权重参数下,得到的L2可以尽可能的保存L1的信息。

Autoencoder的输出L2的维度由输出的神经元个数决定。当输出维度大于L1时,则需要在训练目标函数中加入sparse 惩罚项,避免L2直接复制L1(权重全为1)。所以称为sparseAutoencoder( Andrew Ng提出的)。

结论:SparseAutoencoder大多数情况下都是升维的,所以称之为特征降维的方法不准确。

                      

43. 位势函数法的积累势函数K(x)的作用相当于Bayes判决中的()AD

A.后验概率

D.类概率密度与先验概率的乘积

解析: 后验概率=先验概率x调整因子

后验概率是指在得到"结果"的信息后重新修正的概率,如贝叶斯公式中的。是"执果寻因"问题中的"果"。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。 

44. 影响聚类算法效果的主要原因有:( )?特征选择 + 分类准则 + 模式相似性测度

45. 

答案:ABCD

A. X4 ∈ w2
B. X3 ∈ w1
C. X2 ∈ w1
D. X1 ∈ w1

解释:

概率问题基本上都是贝叶斯和全概率互相扯蛋,,他们之间往往可以通过条件概率建立联系。

本题中,要判断 xi 属于w1,还是w2,就是判断 p(w1 | xi)  和 p(w2 | xi)的大小关系。即在xi已经发生的情况下,xi 属于哪个类别(w1 ,w2)的可能性更大。

p(w1 | xi) = p(xiw1) / p(xi) = p(xi | w1) * p(w1) / p(xi) = 0.6*(2 - xi) / p(xi)   // 因为xi都在 (1,2)范围

p(w2 | xi) = p(xiw2) / p(xi) = p(xi | w2) * p(w2) / p(xi) = 0.4*(xi - 1) / p(xi)   // 因为xi都在 (1,2)范围

上面两等式相减,得:

delta = p(w1 | xi) - p(w2 | xi) = (1.6 - xi) / p(xi)

所以,在上诉样本中,大于1.6的,属于w2,小于1.6的,属于w1。

看了很多公司的概率题基本上都是在贝叶斯和全概率上面扯,掌握这个套路就行。

46. 隐马尔可夫模型三个基本问题以及相应的算法说法正确的是( ABC)

A. 评估—前向后向算法
B. 解码—维特比算法
C. 学习—Baum-Welch算法
D. 学习—前向后向算法

解析: 针对以下三个问题,人们提出了相应的算法
*1 评估问题: 前向算法
*2 解码问题: Viterbi算法
*3 学习问题: Baum-Welch算法(向前向后算法)

47. 数据清理中,处理缺失值的方法是?ABCD

估算 + 整例删除 + 变量删除 + 成对删除

解释:

由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。

估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。

整例删除(casewise deletion)是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。

变量删除(variable deletion)。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。

成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。

采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。因此,在调查中应当尽量避免出现无效值和缺失值,保证数据的完整性

48. 以下()属于线性分类器最佳准则?ACD

A.感知准则函数

B.贝叶斯分类

C.支持向量机

D.Fisher准则

解释:

线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。

感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,网上有很多介绍。

SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)

Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。

贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方差高斯分布等),其余条件下不是线性分类。

参考:http://blog.163.com/rustle_go_go/blog/static/20294501420122110431306/

49. SPSS中,数据整理的功能主要集中在( )等菜单中AD

A.数据

D. 转换

解释:SPSS 对数据整理的功能主要集中在 数据,转换等菜单。

50. 下列哪些方法可以用来对高维数据进行降维:ABCDEF

LASSO
主成分分析法
聚类分析
小波分析法
线性判别法
拉普拉斯特征映射

解释:Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996)) 方法是一种压缩估计,它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于 0 的回归系数,得到可以解释的模型。lasso通过参数缩减达到降维的目的;

51. 在()情况下,用分支定界法做特征选择计算量相对较少? BD

B. 选用的可分性判据J对特征数目单调不减

D. C_{n}^{d} \gg n n为原特征个数;d 为要选出的特征个数。

52. 关于线性回归的描述,以下正确的有:BCE

A. 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B. 基本假设包括随机干扰项是均值为0的同方差正态分布
C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D. 在违背基本假设时,模型不再可以估计
E. 可以用DW检验残差是否存在序列相关性
F. 多重共线性会使得参数估计值方差减小

解释:

 

 

一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。

所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响

(1)完全共线性下参数估计量不存在

(2)近似共线性下OLS估计量非有效

多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)

(3)参数估计量经济含义不合理

(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外

(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

53. 以下说法中正确的是()BD

A. SVM对噪声(如来自其他分布的噪声样本)鲁棒
B. 在AdaBoost算法中,所有被分错的样本的权重更新比例相同
C. Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重
D. 给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少

解释:

1、SVM对噪声(如来自其他分布的噪声样本)鲁棒

SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。

2、在AdaBoost算法中所有被分错的样本的权重更新比例相同

AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中n为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被凸显出来,从而得到一个新的样本分布。在新的样本分布下,再次对样本进行训练,得到弱分类器。以此类推,将所有的弱分类器重叠加起来,得到强分类器。

3、Boost和Bagging都是组合多个分类器投票的方法,二者均是根据单个分类器的正确率决定其权重。

Bagging与Boosting的区别:取样方式不同。Bagging采用均匀取样,而Boosting根据错误率取样。Bagging的各个预测函数没有权重,而Boosting是由权重的,Bagging的各个预测函数可以并行生成,而Boosing的哥哥预测函数只能顺序生成。

以上答案参考http://www.cnblogs.com/Miranda-lym/p/5194922.html

 

 

 

 

 

 
 
 

 

 

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值