1、下列哪些不适合用来对高维数据进行降维
A LASSO B 主成分分析法 C 聚类分析 D 小波分析法 E 线性判别法 F 拉普拉斯特征映射
解析:
之前的解析略有问题,现完善如下。
LASSO通过参数缩减达到降维的目的;
主成分分析法(PCA)通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维;
线性鉴别法(LDA)通过降维找到一个类内距离最小、类间距离最大的空间实现分类;
小波分析有一些变换的操作降低其他干扰,可以看做是降维;
拉普拉斯特征映射将处于流形上的数据,在尽量保留原数据间相似度的情况下,映射到低维下表示,实现降维;
聚类分析不能用来对高维数据进行降维。
正解C
4、以下哪个是常见的时间序列算法模型
A RSI B MACD C ARMA D KDJ
解析:
自回归滑动平均模型(ARMA)
其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。
其他三项都不是一个层次的。
A.相对强弱指数 (RSI, Relative Strength Index) 是通过比较一段时期内的平均收盘涨数和平均收盘跌数来分析市场买沽盘的意向和实力 , 从而作出未来市场的走势 .
B.移动平均聚散指标 (MACD, Moving Average Convergence Divergence), 是根据均线的构造原理 , 对股票价格的收盘价进行平滑处理 , 求出算术平均值以后再进行计算 , 是一种趋向类指标 .
D. 随机指标 (KDJ) 一般是根据统计学的原理 , 通过一个特定的周期 ( 常为 9 日 ,9 周等 ) 内出现过的最高价 , 最低价及最后一个计算周期的收盘价及这三者之间的比例关系 , 来计算最后一个计算周期的未成熟随机值 RSV, 然后根据平滑移动平均线的方法来计算 K 值 , D 值与 J 值 , 并绘成曲线图来研判股票走势 .
正解C
5、下列不是SVM核函数的是
A 多项式核函数 B logistic核函数 C 径向基核函数 D Sigmoid核函数
解析:
SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。
核函数的定义并不困难,根据泛函的有关理论,只要一种函数 K ( x i , x j ) 满足Mercer条件,它就对应某一变换空间的内积.对于判断哪些函数是核函数到目前为止也取得了重要的突破,得到Mercer定理和以下常用的核函数类型:
(1)线性核函数
K ( x , x i ) = x ⋅ x i
(2)多项式核
K ( x , x i ) = ( ( x ⋅ x i ) + 1 ) d
(3)径向基核(RBF)
K ( x , x i ) = exp ( − ∥ x − x i ∥ 2 σ 2 )
Gauss径向基函数则是局部性强的核函数,其外推能力随着参数 σ 的增大而减弱。多项式形式的核函数具有良好的全局性质。局部性较差。
(4)傅里叶核
K ( x , x i ) = 1 − q 2 2 ( 1 − 2 q cos ( x − x i ) + q 2 )
(5)样条核
K ( x , x i ) = B 2 n + 1 ( x − x i )
(6)Sigmoid核函数
K ( x , x i ) = tanh ( κ ( x , x i ) − δ )
采用Sigmoid函数作为核函数时,支持向量机实现的就是一种多层感知器神经网络,应用SVM方法,隐含层节点数目(它确定神经网络的结构)、隐含层节点对输入节点的权值都是在设计(训练)的过程中自动确定的。而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部最小值,也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。
核函数的选择
在选取核函数解决实际问题时,通常采用的方法有:
一是利用专家的先验知识预先选定核函数;
二是采用Cross-Validation方法,即在进行核函数选取时,分别试用不同的核函数,归纳误差最小的核函数就是最好的核函数.如针对傅立叶核、RBF核,结合信号处理问题中的函数回归问题,通过仿真实验,对比分析了在相同数据条件下,采用傅立叶核的SVM要比采用RBF核的SVM误差小很多.
三是采用由Smits等人提出的混合核函数方法,该方法较之前两者是目前选取核函数的主流方法,也是关于如何构造核函数的又一开创性的工作.将不同的核函数结合起来后会有更好的特性,这是混合核函数方法的基本思想.
正解B
7、一般,k-NN最近邻方法在()的情况下效果较好
A 样本较多但典型性不好 B 样本较少但典型性好 C 样本呈团状分布 D 样本呈链状分布
解析:
K近邻算法主要依靠的是周围的点,因此如果样本过多,那肯定是区分不出来的。因此应当选择B
样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。
正解B
8、在一个n维的空间中, 最好的检测outlier(离群点)的方法是()
A 作正态分布概率图 B 作盒形图 C 马氏距离 D 作散点图
解析:
马氏距离是基于卡方分布的,度量多元outlier离群点的统计方法。
有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为:
(协方差矩阵中每个元素是各个矢量元素之间的协方差Cov(X,Y),Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},其中E为数学期望)
而其中向量Xi与Xj之间的马氏距离定义为:
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:
也就是欧氏距离了。
若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。
9、对数几率回归(logistics regression)和一般回归分析有什么区别?
A对数几率回归是设计用来预测事件可能性的
B对数几率回归可以用来度量模型拟合程度
C对数几率回归可以用来估计回归系数
D以上所有
解析:
A: 对数几率回归其实是设计用来解决分类问题的
B: 对数几率回归可以用来检验模型对数据的拟合度
C: 虽然对数几率回归是用来解决分类问题的,但是模型建立好后,就可以根据独立的特征,估计相关的回归系数。就我认为,这只是估计回归系数,不能直接用来做回归模型。
正解D
10、bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)
A有放回地从总共M个特征中抽样m个特征
B无放回地从总共M个特征中抽样m个特征
C有放回地从总共N个样本中抽样n个样本
D无放回地从总共N个样本中抽样n个样本
解析:
boostrap是提鞋自举的意思(武侠小说作者所说的左脚踩右脚腾空而起). 它的过程是对样本(而不是特征)进行有放回的抽样, 抽样次数等同于样本总数. 这个随机抽样过程决定了最终抽样出来的样本, 去除重复之后, 占据原有样本的1/e比例.
正解C
1、“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是()
A 对的 B 错的
解析:
我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score)
过拟合是训练集上表现很好,但是在测试集上表现很差,泛化性能差。
无监督学习应该也是有训练集和测试集的。应该也是有过拟合 的概念的。
正解A
2、对于k折交叉验证, 以下对k的说法正确的是()
A k越大, 不一定越好, 选择大的k会加大评估时间
B 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)
C 在选择k时, 要最小化数据集之间的方差
D 以上所有
解析:
k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.
泛化误差可以分解为偏差(Biase)、方差(Variance)和噪声(Noise)
3、回归模型中存在多重共线性, 你如何解决这个问题? 1 去除这两个共线性变量 2 我们可以先去除一个共线性变量 3 计算VIF(方差膨胀因子), 采取相应措施 4 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归
A 1 B 2 C 2和3 D 2, 3和4
解析:
解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也可以VIF, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高. 我们也可以用 岭回归和lasso回归的带有惩罚正则项的方法. 我们也可以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果。
正解D
4、模型的高bias是什么意思, 我们如何降低它 ?
A 在特征空间中减少特征
B 在特征空间中增加特征
C 增加数据点
D B和C
E 以上所有
解析:
bias表示模型预测值的均值与样本实际值的差距,它反映了模型对样本数据的拟合能力。bias越低,说明模型越复杂,参数越多,对样本数据的拟合效果越好,但是容易过拟合;bias越高,说明模型越简单,参数太少,对样本数据的拟合效果不好,这就是欠拟合。 降低bias的方法是增加数据的特征维数,从而实现模型参数的增加,提高模型复杂度,增强模型对样本数据的拟合能力,拟合能力越高bias越低。 增加样本数量并没有增加模型训练时的参数,所以不会提高模型复杂度,也就无法降低bias,C错误。在特征空间中增加特征就是增加样本数据的输入特征维数,所以A错误,B正确。
正解B
5、训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下图的哪一个()
A Outlook B Humidity C Windy D Temperature
解析:
之前解析不够完善,特完善如下。 信息熵公式:
条件熵公式:
特征X的信息增益:
题干样本数据表格化如图:
原始样本数据信息熵 H(Y)=0.9403bit
Outlook的信息增益 g(Y,X1)=0.2468bit
Humidity的信息增益 g(Y,X2)=0.1518bit
Windy的信息增益 g(Y,X3)=0.0481bit
Temperature的信息增益 g(Y,X4)=0.0292bit
综上所述,信息增益:Outlook > Humidity > Windy > Temperature,答案选A。 此题也可以直接比较条件熵H(Y|X),条件熵越小,信息增益越大。
正解A
6、对于信息增益, 决策树分裂节点, 下面说法正确的是() 1 纯度高的节点需要更多的信息去区分 2 信息增益可以用”1比特-熵”获得 3 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的
A 1 B 2 C 2和3 D 所有以上
解析:
如图,5个样本数据按照节点X1的取值被划分到子节点,子节点的类别纯度为100%,故不需要更多的信息(如特征X2)继续划分,1错误。
设类别为随机变量Y,特征为X,则信息增益 = H(Y)-H(Y|X),H(Y)的取值为:[0,log(n)],其中log底数为2,n是随机变量Y的取值个数。 当n=2且正负样本概率均为0.5时,信息熵H(Y) = 1比特。所以信息增益可以用”1比特-熵”来获得,这里的熵即为条件熵H(Y|X),”1比特-熵”加引号意思是在特定情况下的信息增益,所以2正确。 以信息增益作为划分训练数据集的特征,存在偏向于选择值较多的特征的问题,也就是说选择一个属性具有许多归类值所获得的信息增益是有偏差的,使用信息增益比可以对这一问题进行校正。 如图,5个样本数据按照节点X1的取值被划分到子节点,子节点的类别纯度为100%,故不需要更多的信息(如特征X2)继续划分,1错误。 设类别为随机变量Y,特征为X,则信息增益 = H(Y)-H(Y|X),H(Y)的取值为:[0,log(n)],其中log底数为2,n是随机变量Y的取值个数。 当n=2且正负样本概率均为0.5时,信息熵H(Y) = 1比特。所以信息增益可以用”1比特-熵”来获得,这里的熵即为条件熵H(Y|X),”1比特-熵”加引号意思是在特定情况下的信息增益,所以2正确。 以信息增益作为划分训练数据集的特征,存在偏向于选择值较多的特征的问题,也就是说选择一个属性具有许多归类值所获得的信息增益是有偏差的,使用信息增益比可以对这一问题进行校正。 正解C
7、下图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是
A g1 > g2 > g3
B g1 = g2 = g3
C g1 < g2 < g3
D g1 >= g2 >= g3E. g1 <= g2 <= g3
解析:
所谓径向基函数 (Radial Basis Function 简称 RBF), 就是某种沿径向对称的标量函数。 通常定义为空间中任一点x到某一中心点xc之间欧氏距离的单调函数 , 可记作 k(||x-xc||), 其作用往往是局部的 , 即当x远离xc时函数取值很小。最常用的径向基函数是高斯核函数 ,形式为 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ^2) } 其中xc为核函数中心,σ为函数的宽度参数 , 控制了函数的径向作用范围。由radial basis: exp(-gamma*|u-v|^2)可知, gamma越小, 模型越简单, 平滑度越好, 分类边界越不容易过拟合, 所以选C。
正解C
8、假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 : 1 模型分类的召回率会降低或不变 2 模型分类的召回率会升高 3 模型分类准确率会升高或不变 4 模型分类准确率会降低
A 1 B 2 C 1和3 D 2和4 E 以上都不是
解析:
精确率, 准确率和召回率是广泛用于信息检索和统计学分类领域的度量值,用来评价结果的质量。下图可以帮助理解和记忆它们之间的关系, 其中精确率(precision)和准确率(accuracy)都是关于预测效果的描述. 召回率是关于预测样本的描述。 精确率表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP), 也就是P = TP / (TP + FP)。 准确率表示的是预测的正负样本有多少是真实的正和负, 预测正确的数量占全部预测数量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部样本。 召回率表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN), 也就是R = TP / (TP + FN)。 精确率和召回率二者计算方法其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。 提高分界阈值大于0.5, 则预测为正的样本数要降低, 相当于把图中圆圈变小, 按下图则可计算
召回率的分子变小分母不变, 所以召回率会变小或不变; 精确率的分子分母同步变化, 所以精确率的变化不能确定; 准确率的分子为圆内绿色加圆外右侧矩形面积所围样本, 两者之和变化不能确定; 分母为矩形所含全部样本不变化, 所以准确率的变化不能确定; 综上, 所以选A。
9、“点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是
A 模型预测准确率已经很高了, 我们不需要做什么了
B 模型预测准确率不高, 我们需要做点什么改进模型
C 无法下结论 D 以上都不对
解析:
类别不均衡的情况下,不要用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,但是这个分类器一点用都没有。
正解C
10、使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少:
A 0% B 100% C 0%到100 D 以上都不是
解析
knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%。
正解:B