11 一般,k-NN最近邻方法在( )的情况下效果较好
样本较少但典型性好
12 下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )
速度快
crf 的优缺点
CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
CRF 的缺点:速度慢
13 下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测
AR模型:自回归模型,是一种线性模型
MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型
ARMA模型:自回归滑动平均模型,拟合较高阶模型
GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测
14 在spss的基础分析模块中,作用是“以行列表的形式揭示数据之间的关系”的是( 交叉表)
15 在对问题的解空间树进行搜索的方法中,一个结点有多次机会成为活结点的是:(
回溯法
解析
分支限界法思想
- 以广度优先或以最小耗费(最大效益)优先的方式搜索问题的解空间树
- 分支限界法中,每一个活结点只有一次机会成为扩展结点,活结点一旦成为扩展结点,就一次性产生其所有儿子结点,其中导致不可行解或导致非最优解的儿子结点被舍弃,其余儿子结点被加入活结点表中
- 然后从活结点表中取下一结点成为当前扩展结点
- 重复上述结点扩展过程,直至到找到所需的解或活结点表为空时为止
从中可以看出,广度优先且不满足的被舍弃,满足的找其儿子节点,所以其不可能再次成为活结点
回溯法:深度优先自然可以回到此节点。
16 均值移动(Mean Shift)算法的核心思想是:
找到概率密度梯度为零的采样点,并以此作为特征空间聚类的模式点
17 随机抽样一致算法(random sample consensus,RANSAC),采用迭代的方式从一组包含离群的被观测数据中估算出数学模型的参数。对于RANSAC的基本假设描述正确的是:
给定一组(通常很小)的内群,存在一个程序,这个程序可以估算最佳解释或最适用于这一数据模型的参数。
离群点离inliers集中区域的差距再可控范围内
数据会受噪声影响,噪声指的是离群,例如从极端的噪声或错误解释有关数据的测量或不正确的假设
18 机器学习中L1正则化和L2正则化的区别是?
使用L1可以得到稀疏的权值
使用L2可以得到平滑的权值
19 特征降维的方法:主成分分析PCA,线性判别分析LDA, 深度学习SparseAutoEncoder,矩阵奇异值分解SVD
20 特征选择的方法:卡方,信息增益,平均互信息,期望交叉熵
21 位势函数法的积累势函数K(x)的作用相当于Bayes判决中的() 后验概率 类概率密度与先验概率的乘积
22 数据清理中,处理缺失值的方法是?
估算 整例删除 变量删除 成对删除
23 从使用的主要技术上看,可以把分类方法归结为哪几种类型 。
规则归纳方法 贝叶斯分类方法 决策树分类方法 基于距离的分类方法
24 隐马尔可夫模型三个基本问题以及相应的算法说法正确的是:
评估—前向后向算法 解码—维特比算法 学习—Baum-Welch算法
针对以下三个问题,人们提出了相应的算法
*1 评估问题: 前向算法
*2 解码问题: Viterbi算法
*3 学习问题: Baum-Welch算法(向前向后算法)
前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。
Baum-Welch算法解决的是一个模型训练问题,即参数估计,是一种无监督的训练方法,主要通过EM迭代实现;
维特比算法解决的是给定 一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。如通过海藻变化(输出序列)来观测天气(状态序列),是预测问题,通信中的解码问题。
25 下列哪些方法可以用来对高维数据进行降维:
LASSO 主成分分析法 聚类分析 小波分析法 线性判别法 拉普拉斯特征映射
26
1、SVM对噪声(如来自其他分布的噪声样本)鲁棒
SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。
2、在AdaBoost算法中所有被分错的样本的权重更新比例相同
AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中n为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被凸显出来,从而得到一个新的样本分布。在新的样本分布下,再次对样本进行训练,得到弱分类器。以此类推,将所有的弱分类器重叠加起来,得到强分类器。
3、Boost和Bagging都是组合多个分类器投票的方法,二者均是根据单个分类器的正确率决定其权重。
Bagging与Boosting的区别:取样方式不同。Bagging采用均匀取样,而Boosting根据错误率取样。Bagging的各个预测函数没有权重,而Boosting是由权重的,Bagging的各个预测函数可以并行生成,而Boosing的哥哥预测函数只能顺序生成。
30