2024 智慧树北京理工大学大数据思维与技术

最新推荐文章于 2025-05-21 21:45:51 发布
dbxg666
最新推荐文章于 2025-05-21 21:45:51 发布
阅读量544
点赞数 8
文章标签：大数据 python
本文链接：https://blog.csdn.net/dbxg666/article/details/144512631
版权
前言

各位在智慧树选修课平台上选修了“大数据思维与技术·罗森林·北京理工大学” 的同学们，期末考试有大约30%的题目用搜题app都搜不到吧。
网上查半天不是要会员，就是要解锁文档才能看，这里提供一个视频和一篇文档，如果是选修课刷绩点或者想要选修课得到一个比较高分数的同学，可以参考一下本篇博客。
文档

可以把代码块复制到WORD里，然后“ctrl+F”查找题干中内容。
1.	人才培养的工作理念：（ ）
答案:系统###全面###先进###深入
2.	对bagging描述准确的是（ ）
答案:弱学习算法###算法会进行投票选择###有放回抽样训练
3.	下列哪些关于Python列表的说法是正确的？（ ）
答案:可以通过remove()方法删除指定元素###可以通过append()方法在列表末尾添加元素###可以通过sort()方法对列表进行升序排序
4.	视频中涉及的数据增广方式有哪些？（ ）
答案:自反性增广###启发式增广###反对称增广
5.	VMM可分为哪些模式（ ）
答案:混合模式###独立监控模式###宿主模式
6.	属于原型聚类的算法有？（ ）
答案:k均值算法###高斯混合聚类
7.	常见的GPU计算解决方案包括（ ）
答案:GPGPU###OpenCL###CUDA
8.	下列属于朴素贝叶斯优点的是?（ ）
答案:有稳定的分类效率###对小规模的数据表现很好
9.	特征工程一般包含哪些项目（ ）
答案:特征提取###特征构建###特征选择
10.	一个典型的卷积网络是由（ ）堆叠而成。
答案:汇聚层###卷积层###全连接层
11.	关于Word2vec，下列哪些说法是正确的（ ）
答案:Word2vec利用当前特征词的上下文信息实现词向量编码，是语言模型的副产品###Word2vec能够表示词汇之间的语义相关性###Word2vec没有使用完全的深度神经网络模型###Word2vec是无监督学习
12.	以下（ ）都是Linux发行版
答案:Ubuntu###Arch###Debian
13.	强化学习基本框架的5元素包括（ ）
答案:动作###智能体###环境
14.	指针的算数运算包括？（ ）
答案:减###加
15.	寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示，这个过程包括了以下哪些步骤？（ ）
答案:决定如何量化和比较不同表示拟合数据的好坏###选择一个算法过程使评分函数最优###决定要使用的表示的特征和结构###决定用什么样的数据管理原则以高效地实现算法。
16.	Hadoop的核心是什么？（ ）
答案:MapReduce###HDFS
17.	以下哪些是机器学习的分类任务？（ ）
答案:判断邮件是否为垃圾邮件###识别人脸
18.	浮点类型包括以下哪几种类型？（ ）
答案:double###float###long double
19.	下面哪些模块属于强化学习基本框架（ ）
答案:智能体###环境###奖励
20.	大数据脱敏系统包括哪几个子模块?（ ）
答案:文本脱敏###命名实体识别###关键短语识别###规则匹配
21.	以下方法属于集成方法的是？（ ）
答案:stacking
22.	市场现状和行业发展分析模块，利用的是什么机制学习时间拓扑特征（ ）
答案:霍克斯过程
23.	强化学习的目的是（ ）
答案:训练智能体在顺序决策问题上的最优行为策略
24.	在java中，下列哪个关键字可以用来表示当前对象的引用？（ ）
答案:this
25.	以下哪个模式表示以只读模式打开文件？（ ）
答案:r
26.	在卷积神经网络计算中，已知输入特征层大小为32x32x64, 使用标准卷积计算，带偏置项，卷积核大小为3*3，输出特征层数目为64，请问卷积层的参数个数为？（ ）
答案:36928
27.	以下哪种指针在C语言中不存在？（ ）。
答案:其余选项指针均存在
28.	PCA算法流程的第一步是什么？（ ）。
答案:样本中心化
29.	以下哪种文件不能用于安装虚拟机（ ）。
答案:gho备份文件
30.	在支持向量机中使用什么解决二分类线性不可分问题（ ）。
答案:核函数
31.	以下哪种不是void类型的常见用法？（ ）。
答案:void常量
32.	什么是法律检索的核心？（ ）。
答案:类案匹配
33.	朴素贝叶斯基于什么假设（ ）
答案:特征条件独立假设
34.	下列哪个不属于ID3的优点（ ）
答案:适用于连续变量
35.	典型的桌面级虚拟化软件工具是（ ）
答案:VMwareWorkstation
36.	K近邻算法什么样的特征在欧氏距离计算时起了决定性作用（ ）
答案:绝对值大的
37.	填充效果最好的数据填充方式是（ ）
答案:人工填充
38.	Linux为了安装软件需要使用（ ）。
答案:apt
39.	标准化和归一化在机器学习中主要处理什么样的数据（ ）。
答案:样本的特征数据
40.	同步的序列到序列模式主要用于（）任务，即每一时刻都有输入和输出，输入序列和输出序列的长度相同。（ ）。
答案:序列标注
41.	可以使用双向长短时记忆抽取字符级特征，交由条件随机场标注，减轻对词级别特征的依赖，来解决中文缺乏词边界的问题。（ ）
答案:对
42.	当递归神经网络的结构退化为线性序列结构时，递归神经网络就等价于简单循环神经网络。（ ）
答案:对
43.	AdaBoost用错分的数据样本来识别问题，通过调整错分数据样本的权重来改进模型（ ）
答案:对
44.	特征选择的意义是可以减少过拟合及特征数量（ ）
答案:对
45.	非结构化数据是字段不可变的的数据（ ）
答案:错
46.	stacking算法由于需要多次训练，要求训练数据多（ ）
答案:对
47.	添加用户的命令是adduser（ ）
答案:对
48.	我们使用的JDK需要配置环境变量（ ）
答案:对
49.	hadoop需要修改权限吗（ ）
答案:对
50.	逻辑回归属于回归问题（ ）
答案:对
51.	Text-CNN模型结构是分为输入层，卷积层，池化层，全连接层（ ）
答案:对
52.	在构建模型进行西尼罗河病毒预测后，使用AUC指标对模型进行效果评估，AUC是ROC曲线下的面积，面积越大，模型预测结果越可靠。（ ）
答案:对
53.	数量级的差异会导致迭代收敛速度增加。（ ）
答案:错
54.	关联规则是反映事物间的依存性和关联性（ ）
答案:对
55.	批量计算以”动态数据“为对象，可在充裕的时间内对海量数据进行批量处理（ ）
答案:错
56.	VMware Workstation Pro功能强大，是TYPE1的虚拟机（ ）
答案:错
57.	Hadoop是面向大数据处理的提供系统层细节透明的集中式计算平台（ ）
答案:错
58.	只在单台机器设置便可以配置好Spark环境（ ）
答案:错
59.	前馈神经网络具有很强的拟合能力，常见的连续非线性函数都可以用前馈神经网络来近似。（ ）
答案:对
60.	bagging是基于自助采样法（ ）
答案:对
61.	随机森林是Bagging的一个扩展变体，它以（）作为基学习器构建Bagging集成，在决策树的训练过程中引入了随机属性选择。（ ）。
答案:决策树
62.	本项目数据预处理包含下列哪几个步骤：（ ）。
答案:数据清洗###去停用词###分词
63.	计算机病毒造成的危害是：（ ）
答案:破坏计算机系统
64.	本项目在文字转换成数字特征过程中，文本中每个词的编号是：（ ）。
答案:根据词频，词频越大，编号越小
65.	在针对西尼罗河病毒预测过程中数据预处理用到了处理缺失值的手段。若数据集中仅存在少量的缺失值，则处理缺失值的一般方法有：（ ）。
答案:删除缺失值所在的整列###使用众数插补###使用中位数插补
66.	全校学生1000人，男生600人，女生400人，现在需要选择10人作为全校学生代表，应当采取以下哪种采样方法：（ ）。
答案:分层采样
67.	下列说法不正确的是：（ ）。
答案:非结构化数据是一种成熟的过程和技术
68.	数据中缺失值的存在不会给模型训练带来什么影响：（ ）。
答案:有缺失值对模型训练没有影响
69.	数据清洗属于特征工程吗。（ ）
答案:对
70.	下列关于特征工程的说法不正确的是：（ ）。
答案:特征工程避免了手动提取特征的麻烦
71.	虚拟化技术的目的是提高计算机硬件资源的利用率（ ）。
答案:对
72.	虚拟机监视器的英文全称和简称，是以下：（ ）。
答案:Virtual Machine Monitor，VMM
73.	GPU针对的任务特点是：（ ）。
答案:相互独立###计算密集###类型一致
74.	根据虚拟机监视器在虚拟化平台中所处的位置不同，可以将其分为以下哪些模式：（ ）。
答案:独立监控模式###混合模式###宿主模式
75.	GPU最初是用来进行：（ ）。
答案:图形处理
76.	机器学习的分类有：（ ）。
答案:强化学习###无监督学习###监督学习###半监督学习
77.	以下综合表现最好的一种梯度下降算法是：（ ）。
答案:小批量梯度下降
78.	以下关于机器学习表述正确的是：（ ）。
答案:机器学习的主要研究内容是学习算法
79.	回归模型的输出是连续的值，分类模型的输出是离散的值（ ）。
答案:对
80.	小批量梯度下降法计算所需时间少，迭代次数少（ ）。
答案:对
81.	vim为了输入文字，需要进入（ ）。
答案:插入模式
82.	为了使文件能被任何一个人修改，需要将权限设置为（ ）。
答案:777
83.	Kali Linux基于（ ）。
答案:Debian
84.	Linux文本编辑器无法使用鼠标操作（ ）。
答案:错
85.	为了安全，Kali Linux只能安装在虚拟机中（ ）。
答案:错
86.	网络空间大数据安全防御技术包括：（ ）。
答案:可信计算技术###问控制技术###数据水印以及数据溯源技术###匿名化保护技术以及认证技术
87.	Hive是一个构建于（）顶层的数据仓库工具，主要用于对存储在（）文件中的数据集进行数据整理、特殊查询和分析处理。（ ）
答案:Hadoop
88.	分布式文件系统的设计目标主要包括透明性、并发控制、可伸缩性、容错以及安全需求等，客户端对文件的读写不影响其他客户端对同一个文件的读写体现了（ ）。
答案:并发控制
89.	从防护视角来看，网络空间大数据主要威胁在于：（ ）。
答案:用户隐私保护###数据的访问控制以及APT###数据的可信性###数据的存储安全
90.	网络空间大数据安全的基本内涵中，大数据自身安全即如何保护大数据自身安全，包括针对大数据抓取和大数据存储的安全性。（ ）
答案:错
91.	人活着的目的和意义：（ ）。
答案:使命###生命
92.	大学需要学习以及培养的能力有（ ）。
答案:系统的思维方法###丰富的知识图谱###快速的学习能力
93.	为成为一个人文科学和工程领域的领袖人物，课程要求学生需要具备：（ ）。
答案:整合能力###领导能力###全球视野###实践能力
94.	以下哪一个是课程中所提出的做事八字母法：（ ）。
答案:PCDL，TIPO
95.	创新源于问题，要敢于发现问题和提出问题。（ ）
答案:对
96.	线性回归的优点在于（ ）
答案:形式简单便于理解###易于建模###可解释性好
97.	以下哪个属于线性分类器最佳准则?（ ）
答案:支持向量机###Fisher准则###感知准则函数
98.	虚拟机分为（ ）
答案:TYPE1###TYPE3
99.	Spark支持使用哪几种编程语言进行编程？（ ）
答案:Java###Python###Scala
100.	Kali中包含的工具有（ ）
答案:木马###密码破解###计算机取证
101.	服务器级虚拟化软件包括（ ）
答案:Vmware EXSI###Microsoft Hyper-V###Ctrix Xenserver
102.	在层次聚类中，如果要确定聚类的数量，可以使用哪些方法？（ ）
答案:切割法###凝聚度法
103.	下列属于决策树算法中可用来划分属性的是（ ）
答案:基尼指数###信息增益###增益率
104.	神经网络模型因受人类大脑的启发而得名。神经网络由许多神经元（Neuron）组成，每个神经元接受一个输入，对输入进行处理后给出一个输出。请问下列关于神经元的描述中，哪一项是正确的？（ ）
答案:每个神经元只有一个输入和一个输出###每个神经元有多个输入和多个输出###每个神经元有多个输入和一个输出###每个神经元有一个输入和多个输出
105.	大数据的核心是洞察，有哪些特色（ ）
答案:洞察管理规律###洞察未来趋势###洞察工作重点###洞察调度奥妙
106.	B/S架构的优点有：（ ）
答案:客户端零维护###开发简单，共享性强###可以跨平台
107.	数据清理中，处理缺失值的方法是?（ ）
答案:整例删除###变量删除###成对删除###估算
108.	以下哪些是VPS的优点？（ ）
答案:灵活性高###稳定性高###安全性高###可扩展性高
109.	以下是分类模型的代理损失函数的是：（ ）
答案:铰链损失函数###指数损失函数###交叉熵损失函数
110.	决策树由哪三种元素组成（ ）
答案:根结点###叶节点###内部节点
111.	评估命名实体是否被正确识别的要素？（ ）
答案:实体的边界###实体的类型
112.	深度学习中的激活函数需要具有哪些属性？（ ）
答案:计算简单###非线性###几乎处处可微
113.	网络空间大数据安全的基本内涵包括：（ ）
答案:大数据安全应用###大数据自身安全
114.	Web2.0强调（ ）
答案:个人
115.	过拟合是指（ ）
答案:模型在训练集上表现很好，但在测试集上表现很差
116.	以下关于数据集的表述正确的是：（ ）。
答案:训练集和测试集在训练之前就要进行划分
117.	以下哪种信息最敏感：（ ）。
答案:标识符
118.	下列方法无法解决算法出现高方差问题的是：（ ）。
答案:尝试获得更多的特征
119.	caffe中基本的计算单元为（ ）
答案:layer
120.	朴素贝叶斯分类器的为什么是“朴素”的（ ）。
答案:属性条件独立性假设
121.	Java中，下列哪个是面向对象编程中的三大特征？（ ）
答案:集成、封装、多态
122.	下列哪种案例是编程语言级虚拟化代表（ ）
答案:JVM
123.	Boosting算法中的个体学习器之间（ ）。
答案:有联系
124.	怎样查看ip地址（ ）
答案:ifconfig
125.	Bagging算法中的个体学习器之间（ ）。
答案:没有联系
126.	LGB模型是基于（）的梯度提升框架（ ）。
答案:决策树
127.	Q-learning算法的智能体是什么？（ ）。
答案:Q表
128.	CNN常见的Loss函数不包括以下哪个（ ）
答案:siamese_loss
129.	下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测？（ ）
答案:GARCH模型
130.	Q-learning算法中，应该尽可能减小学习率（ ）
答案:错
131.	在java中，一个类可以继承多个父类，但是它只能实现一个接口（ ）
答案:错
132.	标准化包括了灵活的非线性方法（ ）
答案:对
133.	特征选择要从原始数据中选择最优特征（ ）
答案:对
134.	Stacking可以通过添加正则项有效的对抗过拟合,而且并不需要太多的调参和特征选择（ ）
答案:对
135.	均值漂移算法通过密度估计来寻找数据集中的局部最大值，以实现聚类。（ ）
答案:对
136.	所有最新的GPU都可以使用cuda（ ）
答案:错
137.	修改hostname不需要root权限（ ）
答案:对
138.	保外评估的好处是能够对bagging集成的每个预测器使用未经训练过的实例进行验证，不需要单独准备验证集（ ）
答案:对
139.	C语言中，数组在内存中是连续的（ ）
答案:对
140.	K均值算法是一种基于原型的聚类算法。（ ）
答案:对
141.	FA-score是查准率和查全率的调和平均数（ ）
答案:对
142.	数据的属性或特征相关性很大时可以用朴素贝叶斯（ ）
答案:错
143.	朴素贝叶斯不需要知道先验概率（ ）
答案:错
144.	HDFS分布式文件系统在物理结构上由计算机集群中的多个节点构成的，其中数据节点是系统结构的核心。（ ）
答案:错
145.	二进制编码本质利用了二进制对ID进行哈希映射。（ ）
答案:对
146.	XGBOOST模型和LGB模型相比（ ）
答案:计算量大###精度更高
147.	可视化工具包括哪几个？（ ）
答案:Cube###Axiis
148.	处理类别不平衡问题，可以使用以下哪些采样方法：（ ）
答案:欠采样###过采样
149.	本期视频主讲了哪几种编码？（ ）
答案:序列编码###one-hot编码###二进制编码
150.	下列哪些属于Java IO流中的字节流？（ ）
答案:ObjectOutputStream###FileInputStream###DataOutputStream
151.	贝叶斯决策论一般用来处理什么问题（ ）
答案:分类问题###排序问题###诊断问题###估计问题
152.	常用的数据填充方法有：（ ）
答案:KNN填充###人工填充###平均值填充###热卡填充
153.	Apriori算法的计算复杂度受(）影响（ ）
答案:事务平均宽度###支持度阀值###项数（维度）###事务数
154.	KNN的优点有那些？（ ）
答案:对异常值不敏感###数学原理简洁易用###惰性算法，模型训练快
155.	下列关于神经网络的叙述中，正确的是（ ）
答案:存在某种深度神经网络（至少一个隐藏层），使其每个局部最优解都是全局最优解
156.	我们使用的JDK版本是多少的（ ）
答案:Linux64
157.	下列哪项关于模型能力（model capacity）的描述是正确的？（指神经网络模型能拟合复杂函数的能力）（ ）
答案:隐藏层层数增加，模型能力增加
158.	Python中，以下哪个方法可以返回一个字符串的子串？（ ）
答案:substring
159.	以下哪些不是关联规则相关的概念点？（ ）。
答案:实例
160.	关于Attention-based Model，下列说法正确的是（ ）
答案:相似度度量模型
161.	Bagging算法中的个体学习器之间（ ）
答案:没有联系
162.	下列哪种离散化方法属于无监督方法？（ ）。
答案:分箱法
163.	Spark安装需要首先做的是（ ）
答案:修改slave文件
164.	在Python中，用来存储一组无序、唯一的元素的数据类型是？（ ）
答案:集合（set）
165.	大数据的基本处理思想是什么（ ）
答案:分布式计算
166.	什么反应了数据的精细化程度（ ）
答案:颗粒度
167.	恶意代码检测可分为静态检测和动态检测两种方法（ ）
答案:对
168.	可以利用虚拟化技术降低计算机硬件资源的使用率（ ）
答案:错
169.	Fuzzy C-Means属于硬聚类算法（ ）
答案:错
170.	数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。（ ）
答案:对
171.	孪生网络的两部分模型参数需要不一致。（ ）
答案:错
172.	大数据的定义是数据量非常庞大，需要使用大型计算机进行处理和分析。（ ）
答案:错
173.	Linux可以运行在路由器上（ ）
答案:对
174.	主成分分析是一种降维方法（ ）
答案:对
175.	C语言中，使用动态内存分配函数获取的内存可以直接使用，无需类型转换（ ）
答案:错
176.	大数据仅仅是指数据体量大（ ）
答案:错
177.	XGBOOST模型采用leaf-wise策略生长树（ ）
答案:错
178.	Kmeans算法在聚类簇不发生改变时停止迭代（ ）
答案:对
179.	数据中缺失值的出现往往是可以避免的。（ ）
答案:错
180.	信息社会经历的发展阶段包括（ ）
答案:互联网时代###大数据时代###计算机时代
181.	课程中提到的三个特征选择方法包括：（ ）
答案:包裹法###嵌入法###过滤法
182.	常见的数据变换方法有（ ）
答案:取对数###取指数
183.	供应链网络建模与画像模块包括的处理过程有？（ ）
答案:实体关系抽取###实体对齐###命名实体识别
184.	假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是？（ ）
答案:当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题###模型效果相比无重复特征的情况下精确度会降低
185.	可视化的作用包括什么？（ ）
答案:分析推理###记录信息###传播思想
186.	下列哪些关于Java异常处理的说法是正确的？（ ）
答案:Java中异常分为编译时异常和运行时异常###Java中可以通过throws关键字将异常抛出给调用者进行处理###Java中的异常是一种程序运行过程中的错误
187.	以下几种模型方法属于判别式模型(Discriminative Model)的有？（ ）
答案:区分度训练###条件随机场模型
188.	特征选择方法包括：（ ）
答案:filter###embedding###wrapper
189.	泛化误差包括（ ）
答案:偏差###噪声###方差
190.	结构化数据不包括：（ ）
答案:图片###文本###图像
191.	随机森林的基学习器是什么（ ）
答案:决策树
192.	以下算法中，不属于密度聚类的是：（ ）。
答案:hierarchical clustering
193.	3δ原则适用于什么样的数据（ ）。
答案:正态分布
194.	判别模型直接建模（）概率分布；生成模型则先对（）概率分布建模，然后再由贝叶斯公示,此获得（）概率分布（ ）。
答案:条件，联合，条件
195.	智能手环的开发，体现了什么技术的应用（ ）
答案:传感器
196.	在本系统中的命名实体识别模块采用了什么方法，得到了文本的全局和局部特征？（ ）。
答案:BiLSTM+Attention
197.	前馈神经网络中的各个层之间是（）的，反馈神经网络中中的各个层之间是（）的：（ ）。
答案:无环；有环
198.	在vim中，如果需要输入文字，首先要进入（）（ ）
答案:插入模式
199.	缺失值的属性划分不包括（ ）
答案:连续缺失
200.	在大数据安全中，以下哪种攻击方式最容易导致隐私泄露？（ ）
答案:驻留式攻击
201.	hadoop有几个master（ ）
答案:一个
202.	命名实体识别方法使用注意力机制提取局部特征（ ）
答案:对
203.	在大数据分析中，数据的时间变化后，模型不会发生变化。（ ）
答案:错
204.	ssh可以无密码连接（ ）
答案:对
205.	特征选择等价于降维（ ）
答案:错
206.	输入是三元组数据的任务，可采用二分类常用的交叉熵损失函数（ ）
答案:错
207.	当今世界四大趋势指的是经济全球化，全球城市化，全球信息化，信息智慧化（ ）
答案:对
208.	受限玻尔兹曼机属于概率图模型（ ）
答案:对
209.	PCA仅需要以方差衡量信息量（ ）
答案:对
210.	欠采样后得到的分类器训练集大于初始训练集。（ ）
答案:错
211.	第一次开启虚拟机，是否需要进行系统安装（ ）
答案:对
212.	网卡在Linux中也以文件的形式存在（ ）
答案:对
213.	EM算法包括哪些步骤（ ）
答案:最大化步###期望步
214.	对随机森林算法的说法正确的有（ ）
答案:由于采用了随机采样，训练出的模型的方差小，泛化能力强###在某些噪音比较大的样本集上，容易陷入过拟合###训练可以高度并行化，对于大数据时代的大样本训练速度有优势
215.	层次聚类的特点包括哪些？（ ）
答案:不需要预先确定聚类数###可以产生不同层次的聚类结果###适用于处理高维数据
216.	实体关系抽取方法的预处理模块，包含哪些主要操作?（ ）
答案:分句###词性标注###依存分析###分词
217.	影响聚类算法效果的主要原因有？（ ）
答案:特征选取###分类准则###模式相似性测度
218.	传统恶意软件包括（ ）
答案:特洛伊木马###网络蠕虫###计算机病毒###广告软件
219.	人才培养的文化理念：（ ）
答案:厚德###明理###慎独###求是
220.	特征工程的过程包括（ ）
答案:特征处理###特征监控###特征获取
221.	循环神经网络可以应用到很多不同类型的机器学习任务．根据这些任务的特点可以分为以下几种模式：（ ）
答案:序列到类别模式###同步的序列到序列模式###异步的序列到序列模式
222.	Python中，下列哪个标识符不属于合法的标识符？（ ）
答案:Aname
223.	GPU最初的设计目标是（ ）
答案:图形运算
224.	美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海线路图，标出了大风与洋流可能发生的地点，这体现了（ ）
答案:在分析方法上更注重相关分析而不是因果分析
225.	L1与L2范数在Logistic Regression 中,如果同时加入L1和L2范数会怎样？（ ）
答案:可以做特征选择,并在一定程度上防止过拟合
226.	在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计?（ ）
答案:极大似然估计
227.	假设在训练中我们突然遇到了一个问题，在几次循环之后，误差瞬间降低。你认为数据有问题，于是你画出了数据并且发现也许是数据的偏度过大造成了这个问题。你打算怎么做来处理这个问题？（ ）
答案:对数据作主成分分析(PCA)和归一化
228.	在网络表征学习中常进行网络节点嵌入表示，本系统解决的任务中为获取节点的网络拓扑结构信息使用到的节点嵌入方法为：（ ）。
答案:Deepwalk
229.	根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（ ）
答案:研究科学家
230.	Hadoop的文件API不是通用的，只适用于HDFS文件系统。（ ）
答案:错
231.	pregel是一种基于BSP模型实现的串行图处理系统（ ）
答案:错
232.	差分隐私能用来抵御差分攻击（ ）
答案:对
233.	大数据的思维会把原来的销售的概念变成服务的概念（ ）
答案:对
234.	逻辑回归常用于分类任务（ ）
答案:对
235.	GPU擅长逻辑控制（ ）
答案:错
236.	互相关和卷积的区别仅仅在于卷积核是否进行翻转（ ）
答案:对
237.	Linux的权限组分为（ ）
答案:group###owner###other
238.	支持向量机可以应用在那些方面（ ）
答案:图像处理###语音识别###人脸识别###文字识别
239.	下列哪些是Python文件处理中的常用操作（ ）
答案:关闭文件###打开文件###读取文件###写入文件
240.	能用于关联规则学习的算法有：（ ）
答案:CBA###Apriori###GSP
241.	安装过程需要涉及到哪些软件（ ）
答案:Hadoop###Spark###Scala
242.	KNN算法的优缺点有哪些？（ ）
答案:对样本数据集的大小敏感，计算复杂度高，需要大量存储空间。###易于理解和实现，对异常值的容忍度较高，适用于多分类问题。###对于特征空间中密集分布的数据效果较好，而对于稀疏分布的数据效果较差。
243.	常见的判别模型有（ ）
答案:神经网络###支持向量机###Logistic 回归
244.	我们使用的软件叫什么（ ）
答案:hadoop
245.	当前社会中，最为突出的大数据环境是（ ）
答案:互联网
246.	在使用KNN算法进行分类时，K值的选择对分类结果具有很大的影响，以下哪项描述正确？（ ）
答案:K值越大，模型的方差越小，容易出现欠拟合现象。
247.	Flink用来执行数据流任务或者子任务的是（ ）。
答案:TaskManagers
248.	考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？（ ）
答案:只对最后几层进行调参(fine tune)
249.	TF-IDF从全局和局部两方面捕获词频特征，但难以捕获少量的词特征（ ）
答案:错
250.	KNN属于无监督学习（ ）
答案:错
251.	假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的，对吗？（ ）
答案:错
252.	LDA是一种监督学习的降维技术（ ）
答案:对
253.	异常值的处理方式包括缺失、填补和不处理（ ）
答案:对
254.	特征提取时通过映射将高维的特征向量转换为低维（ ）
答案:对
255.	K均值算法对于初始质心的选择十分敏感，可以通过多次随机初始化来寻找最优解。（ ）
答案:对
256.	学习算法对数据集波动越来越敏感，方差会越来越大吗？（ ）
答案:对
257.	独热编码难以处理高维数据，是由于其计算效率不高（ ）
答案:错
258.	集成学习中，每个基分类器的正确率的最低要求是50%以上吗？（ ）
答案:对
259.	在产品Url自动定位方法中，将HTML解析为DOM结构？（ ）
答案:对
260.	Linux下的文本编辑工具有（）（ ）
答案:vi###vim###emacs
261.	自动摘要提取有哪些主流方法（ ）
答案:抽取式###生成式
262.	linux的解压命令有啥（ ）
答案:unzip###tar -xzvf
263.	关于指针的说法，以下哪些是正确的？（ ）
答案:指针可以进行加减运算，用来访问数组元素###指针使用后应该被置为NULL，防止野指针的出现###指针存储的是其所指向的变量的地址
264.	Flink的基石是？（ ）
答案:Checkpoint###State###Time###Window
265.	AGNES算法的时间复杂度？（ ）。
答案:O(n^2)
266.	交叉熵损失函数的特点是（ ）
答案:本质上是一种对数似然函数，可用于二分类和多分类任务中，对异常点、噪声敏感
267.	Hive是一个构建于Hadoop顶层的数据仓库工具，主要用于对存储在Hadoop文件中的数据集进行（）、特殊查询和分析处理。（ ）
答案:数据处理
268.	HDFS通信协议构建在什么基础之上？（ ）
答案:TCP/IP协议
269.	下列哪个不属于文本型特征？（ ）
答案:异质特征
270.	在虚拟机中，以下哪种网络模式可以让虚拟机访问宿主机的网络？（ ）
答案:桥接模式
271.	Hbase中的批量加载底层使用（）实现。（ ）
答案:MapReduce
272.	对数变换可以用来降低数据的可变性并降低数据中的方差（ ）
答案:对
273.	模型欠拟合和过拟合问题都是可以解决的（ ）
答案:错
274.	信息增益准则对可取值数目较多的属性有所偏好（ ）
答案:对
275.	Hadoop将数据直接存放到内存进行计算，因此读取速度要比存放在硬盘中快的多。（ ）
答案:错
276.	Flink只有SQL 有自动优化机制（ ）
答案:错
277.	KNN算法是一种有监督学习算法，适用于处理分类和回归问题。（ ）
答案:对
278.	组成随机森林的树可以并行生成（ ）
答案:对
279.	网络空间大数据资源的技术驱动包括：（ ）
答案:云计算为支撑###感知设备的普及###物联网体系架构逐步成熟###社交网络承载
280.	Mean Shift算法可用于（ ）
答案:聚类###目标追踪###图像分割
281.	以下属于AGNES算法缺点的是？（ ）
答案:操作无法回溯###时间复杂度高
282.	随机森林的优势有（ ）
答案:不易过拟合###平衡误差###不用降维###训练速度快
283.	以下哪些值是数值型特征的统计量？（ ）
答案:最大值###中位数###标准差###分位数
284.	大数据安全的主要威胁包括以下哪些？（ ）
答案:数据滥用###数据篡改###数据丢失###数据泄露
285.	C语言中的指针是什么？（ ）
答案:一种运算符
286.	下列哪个是回归问题（ ）
答案:预测房屋价格
287.	本节中介绍的RDD的英文全称是？（ ）
答案:Resilient Distributed Datasets
288.	LGB模型使用level-wise策略生长树（ ）
答案:错
289.	如果包含词条w的文档越少，IDF越大（ ）
答案:对
290.	支持向量是指样本中距离超平面最近的一些点（ ）
答案:对
291.	命名实体识别中的”实体“包括下列哪一项？（ ）
答案:均是
292.	Kmeans算法属于？（ ）。
答案:原型聚类
293.	5折交叉验证需要将数据集分为___堆，需要训练___次模型（ ）。
答案:5，5
294.	特征工程的目的是去除原始数据中的杂质和冗余（ ）
答案:对
295.	聚类（clustering）是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。（ ）
答案:错
296.	强化学习属于有监督学习（ ）
答案:错
297.	0-A损失函数适合用于求解最小化问题（ ）
答案:错
298.	BSP是英国计算机科学家Viliant在上世纪80年代提出的一种并行计算模型（ ）
答案:对
299.	Stacking过程中（ ）模型可处于同一层
答案:SVM###GDBT###随机森林（RF）###XGBoost
300.	PCA能有效对样本信息进行？（ ）
答案:压缩###生成###处理###提取
301.	归一化方法应用在下列哪些场景（ ）
答案:神经网络###线性回归###SVM
302.	在java中，下列哪些关键字可以用来定义抽象方法？（ ）
答案:public###abstract
303.	Boosting家族的成员有（ ）
答案:AdaBoost算法###XGBoost算法###GBDT算法
304.	层次聚类可以分为哪两类？（ ）
答案:基于密度的层次聚类###基于距离的层次聚类
305.	下列哪个协议通常被用于远程连接VPS？（ ）
答案:SSH
306.	X86架构所有敏感指令均是特权指令（ ）
答案:错
307.	方差和偏差具有矛盾性（ ）
答案:对
308.	由生成模型可以得到判别模型，但由判别模型得不到生成模型。（ ）
答案:对
309.	恶意代码扫描软件由两部分组成：一部分是（），含有经过特别选定的各种恶意代码的特征串；另一部分是（），负责在程序中查找这些特征串。（ ）
答案:特征代码库###扫描引擎
310.	下列方法可以解决过拟合的有：（ ）
答案:数据增强###损失函数正则化###Dropout
311.	虚拟机的快照功能可以用于以下哪些方面？（ ）
答案:备份虚拟机###保存虚拟机状态###克隆虚拟机###恢复虚拟机
312.	当数据和特征较多时通常情况下以下哪个方法时间和性能消耗较大（ ）。
答案:包裹法
313.	以下不属于大数据特点的是？（ ）
答案:价值密度高
314.	精度大的模型效果一定更好（ ）
答案:错
315.	BigTable是一个集中式存储系统（ ）
答案:错
316.	归一化可以提高模型计算效率体现在了提高分类器的准确性（ ）
答案:错
317.	下列哪些属于类别型特征的编码方式？（ ）
答案:序号编码###独热编码###二进制编码
318.	LFESM模型的组成部分包括（ ）
答案:特征提取层###信息匹配层###特征交互层
319.	ROC曲线的横轴是什么（ ）
答案:FPR
320.	对数值特征进行归一化或标准化，在理论上不会对决策树模型产生很大影响（ ）
答案:对
321.	词袋模型很好地考虑了语义之间的相似性（ ）
答案:错
322.	PCA的应用场景有：（ ）
答案:语音###通信###图像###文本
323.	ssh生成秘钥的命令是什么（ ）
答案:ssh-keygen