大华2022提前批，数据挖掘笔试

A577984148

于 2021-08-03 10:59:59 发布

阅读量1.9k

点赞数 1

文章标签：数据结构

本文链接：https://blog.csdn.net/A577984148/article/details/119327359

版权

大华2022提前批，数据挖掘笔试

数据挖掘笔试

- 大华2022提前批，数据挖掘笔试
1.题目概述
2.题目+答案

面试岗位：【提前批-研发中心】2022届数据挖掘工程师

1.题目概述

一共42道题，25道单选，15道多选，1道sql数据库，1道简答。
前12道照片失效了，有些可惜，题目从13道开始。

2.题目+答案

单选

以下属于机器学习生成模型的是（）
A.朴素贝叶斯
B.SVM
C.CRF
D.Kmeans
答案：A。
常见的生成式模型：判别式分析，朴素贝叶斯，K紧邻(KNN)，混合高斯模型，隐马尔可夫模型(HMM)，贝叶斯网络，Sigmoid Blief Networks，马尔可夫随机场，深度信念网络(DBN)，狄利克雷模型(LDA)。
判别式模型：线性回归，逻辑回归，神经网络，支持向量机(SVM)，高斯过程，条件随机场(CRF)，分类与回归树(CART)。
2.下列不适用于评论不平衡样本分类的度量方法是()
A.F1-score
B.AUC
C.准确率
D.(准确率+召回率)/2
答案：A
常用的有：F1-score，召回率(recall)，精度(precision)，真正率(TPR）。
常规的分类评价指标可能会失效，比如将所有的样本都分类成大类，那么准确率、精确率等都会很高。这种情况下，AUC时最好的评价指标。
你能够使用原型选择技术去降低不平衡水平。选择那些重要的样本。One-Sided Selection (OSS) 是一个预处理技术（模型训练之前使用），能够处理类别不平衡问题。
从另一个角度，可以增加小类的样本个数，可以使用过采样与原型生成技术（prototype-generation techniques）。
在K-Fold 校验中，每一份数据集中原则上应该保持类别样本比例一样或者近似，如果每份数据集中小类样本数目过少，那么应该降低K的值，知道小类样本的个数足够。
一般来说，如果事前不对不平衡问题进行处理，那么对于小类别的样本则会错误率很高，即大部分甚至全部小类样本都会分错。
3.投掷一个均匀正10面体骰子的信息熵是()
答案：3.32bit，log(2,10))
4.以下为无向图的是()
A.条件随机场
B.贝叶斯网络
C.sigmoid信念网络
D.隐马尔可夫网络
答案：A
条件随机场（conditional random field，CRF）
https://blog.csdn.net/qq_28743951/article/details/60465524
贝叶斯网络
https://blog.csdn.net/qq_37315988/article/details/114157176
sigmoid信念网络
https://blog.csdn.net/cengjing12/article/details/106753530?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.control
隐马尔可夫网络
http://blog.itpub.net/69942346/viewspace-2652334/
6.下列关于XGBOOST说法错误的是()
A.XGBOOST自带正则化
B.XGBOOST不能自动处理缺失值
C.XGBOOST使用了二阶泰勒展开
D.XGBOOST使用了列采样机制
答案：B
https://www.cnblogs.com/mantch/p/11164221.html
https://blog.csdn.net/weixin_35410816/article/details/112459528
7.神经网络的Dropout技术可以使用以下哪种技术实现类似效果()
A.Mapping
B.Stacking
C.Bagging
D.Boosting
答案：C
类似于机器学习中常见的Bagging取平均的作用：
先回到标准的模型即没有dropout，我们用相同的训练数据去训练5个不同的神经网络，一般会得到5个不同的结果，此时我们可以采用 “5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。例如3个网络判断结果为数字9,那么很有可能真正的结果就是数字9，其它两个网络给出了错误结果。这种“综合起来取平均”的策略通常可以有效防止过拟合问题。因为不同的网络可能产生不同的过拟合，取平均则有可能让一些“相反的”拟合互相抵消。dropout掉不同的隐藏神经元就类似在训练不同的网络，随机删掉一半隐藏神经元导致网络结构已经不同，整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合，一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。
Mapping映射
https://blog.csdn.net/qq_23483285/article/details/88657747
Stacking
https://blog.csdn.net/maqunfi/article/details/82220115
集成学习：并行化Bagging自助聚集和串行生成Boosting
https://blog.csdn.net/qq_18668137/article/details/81135888
1.将多个分类方法聚集在一起，以提高分类的准确率（可以是相同or不同算法）
2.集成学习法由训练数据构建一组基分类器，然后通过对每个基分类器的预测进行投票来进行分类
3.严格来说，集成学习并不算是一种分类器，而是一种分类器结合的方法。
4.如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。
8.盒子A有2个红球和3个蓝球，盒子B有3个红球和1个蓝球，按照以下方式选择一个球:
1)选择一个盒子。选择盒子A和盒子B的概率分别是1/3，2/3
2)从上一步选的盒子里选择一个球。该盒子里所有球被选择的概率是相等的
如果最后选出来的球是红球，那它是从盒子A中选出来的概率是
A.4/19
B.5/19
C.2/9
D.19/30
答案：A
P(A|红)=P(红|A)P(A)/P(红）
P(红|A)=2/5
P(A)=1/3
P(红)=1/32/5+2/33/4
P(A|红)=P(红|A)P(A)/P(红）=2/51/3/(2/51/3+3/42/3)=4/19
9.在一个长度为L的有序数列中寻找两个数，使得两数之积等于某个指定值的最快算法的平均时间复杂度是
A.O(L)
B.O(log(L))
C.O(Llog(L))
D.O(L^2)
答案：无
10.下列说法错误的是（）
A.在AdaBoost算法中，所有被分错的样本的权重更新比例相同
B.SVM对噪声(如来自其他分部的噪声样本)鲁棒
C.给定N个数据点，如果其中一半用于训练，一半用于测试，则训练误差和测试误差之间的差别会随着N的增加而减少
D.Bagging的各个预测为数权重相同
答案：B
SVM本身对噪声具有一定的鲁棒性，但实验证明，是当噪声率低于一定水平的噪声对SVM没有太大影响，但随着噪声率的不断增加，分类器的识别率会降低。
11.在区间(0,2]上任取三个实数，它们之和大于1.5的概率是
A.9/32
B.3/8
C.3/16
D.9/128
12.对于关联规则A->B，考虑兴趣度度量M=(P(B)A)-P(B))/(1P(B))，以下说法正确的是
A.当P(A， B)增加，P(A)和P(B)保持不变时，M减小
B.当P(A)增加，P(A,B)和P(B)保持不变时，M增大
C.当P(B)增加，P(A,B)和P(B)保持不变时，M减小
D.在行或列缩放操作下，该度量值保持不变
13.以下描述正确的是
A.KNN算法中K值对分类效果影响较为明显，一般K值较大时，对噪声比较敏感
B.集成学习算法存在过拟合、鲁棒性不强等问题
C.决策树算法ID3算法使用的是信息增益比作为特征划分的标准
D.朴素贝叶斯算法对异常点不敏感
答案：D
A.K值得选取非常重要，如果当K的取值过小时，一旦有噪声得成分存在们将会对预测产生比较大影响，例如取K值为1时，一旦最近的一个点是噪声，那么就会出现偏差，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
如果K的值取的过大时，就相当于用较大邻域中的训练实例进行预测，学习的近似误差会增大。这时与输入目标点较远实例也会对预测起作用，使预测发生错误。K值的增大就意味着整体的模型变得简单；
B.对缺失数据不太敏感，算法也比较简单，常用于文本分类。需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
C.决策树算法之ID3（基于信息增益的最优特征选取）
D.https://blog.csdn.net/zhaodedong/article/details/97460050
14.下列说法不正确的是
A.梯度下降法是利用当前位置的负梯度作为搜索方向的方法
B.批量梯度下降和随机梯度下降相比，一个优势是对于大规模样本效率很高
C.牛顿法和梯度下降法相比，一个劣势是求解复杂，一个优势是收救速度加快
D.共轭梯度法仅需利用一阶导数的信息，但是收敛速度高于梯度下降法
答案：B
批量梯度每次要对所有样本进行训练，不适用于大规模样本
随机梯度每次抽取部分样本，收敛速度快
https://www.cnblogs.com/shixiangwan/p/7532830.html

多选
15.下列关于探索数据分析常用图表的说法，正常的有()
A.探索型数据分析常用的图表包括条形图，直方图，饼图，折线图，散点图，箱型图等
B.箱型图可以用于异常数据的展示
C.绝大部分情况下使用饼图代昔条形图能更加直观的展示数据之间的特征和比对
D.在任何情况下都应该避免使用饼图
答案：AB
16.表分区的优点有哪些?
A.增强可用性
B.改善性能
C.均衡I/0
D.维护轻松
答案：ABCD
1、改善查询性能:对分区对象的查询可以仅搜索自己关心的分区，提高检索速度2、增强可用性:如果表的某个分区出现故障，表在其他分区的数据仍然可用;3、维护方便:如果表的某个分区出现故障，需要修复数据，只修复该分区即可;4、均衡I/0:可以把不同的分区映射到磁盘以平衡I/0，改善整个系统性能。
17.数据仓库是随着时间变化的，下面的描述正确的是?
A.数据仓库随时间变化不断增加新的数据内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据，这些综合数据会随看时间的变化不断的进行重新综合
答案：ABD
18.以下哪些方法适合用来对高维数据进行降维
A.主成分分析PCA
B.线性判别法LDA
C.聚类分析
D.LASSO
答案：ABCD
https://blog.csdn.net/w5688414/article/details/79382239
19.假设你使用log-loss函数作为评估指标，下面这些选项中，哪些是对log-loss的正确解释
A.log-loss越低，模型越好
B.如果一个分类器对不正确的分类很自信，log-loss会严重的批评它
C.对于一个特例而言，假设一个正确的类别得到一个非常低的预测的概率，那么log-loss的分布会非常大
答案：ABC
20.在k-均值算法中，以下哪些选项可用于获得全局最小
A.调整迭代次数
B.找到最佳的k值
C.尝试不同的初始化中心点
答案：ABC
21.噪声数据处理的方法主要有
A.分箱
B.聚类
C.关联分析
答案：ABC
https://blog.csdn.net/weixin_42144636/article/details/81584372
22.以下为神经网络中的常用的权值初始化方法的有
A.初始化为零
B.Xavier随机初始化
C.He初始化
D.lecun初始化
答案：
权值初始化的方法主要有：常量初始化（constant）、高斯分布初始化（gaussian）、positive_unitball初始化、均匀分布初始化（uniform）、xavier初始化、msra初始化、双线性初始化（bilinear），He初始化
23.下列属于无监督学习的是
A.DBSCAN
B.SVM
C.CRF
D.KMEANS
答案：AD
SVM、CRF分类监督学习，DBSCAN、KMEANS无监督聚类
24.以下有利于缓解样本不平衡问题的措施有
A.上采样
B.下采样
C.调整类别权重系数
D.数据增强
答案：CD(不确定)
25.变量选择时用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑?
A.多个变量其实有相同的用处
B.变量对于模型的解释有多大的作用
C.特征携带的信息
D.交叉验证
答案：ACD
26.当我们构造线性模型时，我们注意变量间的相关性，在相关矩阵中搜索相关系数时，如果我们发现3对变量的相关系数是(变量1和变量2变量2和变量3变量3和变量1)是-0.980.451.23，我们可以得出什么结论
A.变量1和遍历是相关的
B.变量1和变量2高度相关，因此可以删除其中一个变量
C.变量3和变量1的相关系数是错误的
答案：ABC
27.下列哪些叙述是正确的
A.随机森林可以降低方差
B.Adaboost 可以降低方差
C.GBDT可以降低偏差(梯度提升决策树)
D.xgboost可以降低偏差
答案：AC
B、D降低偏差
28.下列说法正确的有
A.随机变量X服从均匀分布的时候熵最大
B.随机变量X服从标准正态分布的时候熵最大
C.L1正则化等价于权重服从高斯先验分布
D.L1正则化等价于权重服从拉普拉斯先验分布
答案：AD
L1正则化可通过假设权重w的先验分布为拉普拉斯分布，由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布，由最大后验概率估计导出。
29.关于机器学习算法正确的是
A.LR模型在加入正则化项后Variance将增大
B.xgboost和GDBT都是属于boosting算法
C.xgboost和随机森林都是属于bagging算法
D.线性SVM是寻找最小边缘的超平面的一个分类器
答案：BD
A.过拟合时是高variance,加入正则化项减少过拟合，因此variance会减少。
C.随机森林是bagging算法
30.优秀团队team表包含团队名称(td. mc)、团队编号(td bh);员工表emp包含员工所属团队编号(yg td bh)、员工姓名(yg xm)、员工绩效分数(yg fs); 请用sq实现获取优秀团队中绩效分数最高的员工。
31. 基本循环神经网络为什么会梯度消失或爆炸? LSTM如何缓解梯度消失和爆炸
https://www.cnblogs.com/bonelee/p/10475453.html

A577984148

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
大华2022提前批，数据挖掘笔试

大华2022提前批，数据挖掘笔试数据挖掘笔试大华2022提前批，数据挖掘笔试1.题目概述2.题目+答案面试岗位：【提前批-研发中心】2022届数据挖掘工程师1.题目概述一共42道题，25道单选，15道多选，1道sql数据库，1道简答。前12道照片失效了，有些可惜，题目从13道开始。2.题目+答案单选以下属于机器学习生成模型的是（）A.朴素贝叶斯B.SVMC.CRFD.Kmeans答案：A。常见的生成式模型：判别式分析，朴素贝叶斯，K紧邻(KNN)，混合高斯模型，隐马尔可夫模型(
复制链接

扫一扫