大数据分析与数据挖掘 (面试题一)

一、单项选择题
1、考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近 邻,所以应该选择____的相似度计算方法。(D )(共 1 分)
A、平方欧几里德距离
B、余弦距离
C、直接相似度
D、共享最近邻
2、发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最 ⼩⽀ 持度和__,利 数据 挖掘⼯ 具提供的算法发现关联规则;可视化显 、理解、评估关联规则。(D )(共 1 分)
A、最 兴趣度
B、最 ⼤⽀ 持度
C、最 置信度
D、最 可信度
3、有关数据仓库的开发特点,不正确的描述是?( A)(共 1 分)
A、数据仓库开发要从数据出发
B、数据仓库使用的需求在开发出去就要明确
C、数据仓库的开发是一个不断循环的过程,是启发式的开发
D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没
有固定的模式
4、社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的______,通过深入挖掘这些数 据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。(B )(共 1 分)
A、地址
B、行为
C、情绪
D、来源
5、概念分层图是什么图?( B)(共 1 分)
A、无向无环
B、有向无环
C、有向有环
D、无向有环
6、大数据的价值是通过数据共享、______后获取最大的数据价值。( D)(共 1 分)
A、算法共享
B、共享应用
C、数据交换
D、交叉复用
7、以下哪项是 Python 中最常 的可视化 具之 ?( A)(共 1 分)
A、Matplotlib
B、ggplot
C、Bokeh
D、pygal
8、神经网络中最基本的成分是?( B)(共 1 分)
A、激活函数
B、神经元模型
C、阈值
D、信号
9、______的目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分 析结果。(D)(共 1 分)
A、数据清洗
B、数据集成
C、数据变换
D、数据归约
10、在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的” 规格来分类,这种方案称为? (B )(共 1 分)
A、基于类的排序方案
B、基于规则的排序方案
C、基于度量的排序方案
D、基于规格的排序方案
11、以下关于人工神经网络(ANN)的描述错误的有? ( A)(共 1 分)
A、神经网络对训练数据中的噪声非常鲁棒
B、可以处理冗余特征
C、训练 ANN 是一个很耗时的过程
D、至少含有一个隐藏层的多层神经网络 2
12、Join 是利用 Python 进行数据合并的一种方法,它可用于?(A )(共 1 分)
A、横向合并数据
B、纵向合并数据
C、按照元素进行数据合并
D、纵向追加数据
13、在标准偏差已知的情况下,离群点检测方法是?( C)(共 1 分)
A、格鲁布斯(Grubbs)检验法
B、肖维勒(Chauvenet)法
C、奈尔检验法
D、拉依达法
14、基本统计描述可以 来识别数据的___,凸显哪些数据值应该视为噪声或离群点。(A )(共 1 分)
A、性质
B、
C、数量
D、准确度
15、以下哪项不是大数据分析常用的数据处理技术?(B )(共 1 分)
A、Hadoop
B、MySQL
C、Spark
D、NoSQL
16、决策树归约构造一个类似于什么样的结构呢?( C)(共 1 分)
A、直方图
B、统计图
C、流程图
D、扇形图
17、关于 OLAP 和 OLTP 的说法,下列不正确的是?(A )(共 1 分)
A、OLAP 事务量大,但事务内容比较简单且重复率高
B、OLAP 的最终数据来源与 OLTP 不一样
C、OLTP 面对的是决策人员和高层管理人员
D、OLTP 以应用为核心,是应用驱动的
18、频繁项集、频繁闭项集、最大频繁项集之间的关系是?( C)(共 1 分)
A、频繁项集 频繁闭项集 =最大频繁项集
B、频繁项集 = 频繁闭项集 最大频繁项集
C、频繁项集 频繁闭项集 最大频繁项集
D、频繁项集 = 频繁闭项集 = 最大频繁项集
19、神经 络就是让机器模仿 脑神经元去判断结果,神经 络的作 主要就是______输 对象的值以及分类等。 ( C)(共 1 分)
A、呈现
B、选择
C、预测
D、分析
20、数据挖掘建模过程不包括?( D)(共 1 分)
A、数据取样、探索、预处理
B、模式发现
C、数据建模及模型评估
D、数据存储空间
21、大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、 并______成为帮助企业经营决策更积极目的的信息。(B )(共 1 分)
A、收集
B、整理
C、规划
D、聚集
22、当今时代步入了一个信息化助力社会全方位创新的重要时期,具体包括哪些?( D)(共 1 分)
A、云计算
B、物联网
C、移动互联和人工智能
D、以上都是
23、以下哪项是 K 近邻算法的一种基本方法?( B)(共 1 分)
A、分类和反复
B、分类和回归
C、反复和组合
D、组合和回归
24、Python 由______数学和计算机科学研究学会的吉多·范罗苏姆于 1990 年代初设计,作为一门叫做 ABC 语言的 替代品。( C)(共 1 分)
A、美国
B、法国
C、荷兰
D、挪威
25、关于 OLAP 和 OLTP 的区别描述,不正确的是?(C )(共 1 分)
A、OLAP 主要是关于如何理解聚集的大量不同的数据、它与 OTAP 应用程序不同
B、与 OLAP 应用程序不同,OLTP 应用程序包含大量相对简单的事务
C、OLAP 的特点在于事务量大,但事务内容比较简单且重复率高
D、OLAP 是以数据仓库为基础的,但其最终数据来源与 OLTP 一样均来自底层的数据库系统,两者面对的用户是相同 的
26、下列关于网络用户行为的说法中,错误的是?(C )(共 1 分)
A、网络公司能够捕捉到用户在其网站上的所有行为
B、用户离散的交互痕迹能够为企业提升服务质量提供参
C、数字轨迹用完即自动删除
D、用户的隐私安全很难得以规范保护 3
27、下列算法中,不属于外推法的是?(B)(共 1 分)
A、移动平均法
B、回归分析法
C、指数平滑法
D、季节指数法
28、BIRCH 是一种?(B )(共 1 分)
A、分类器
B、聚类算法
C、关联分析算法
D、特征选择算法
29、舆情研判,信息科学侧重______社会和管理科学侧重突发群体事件管理中的群体心理行为及舆论控制研究,新 闻传播学侧重对舆论的本体进行规律性的探索和研究。 ( C)(共 1 分)
A、舆论的本体进行规律性的探索和研究 B、舆论控制研究 C、互联网文本挖掘和分析技术 D、用户行为分析
30、只有非零值才重要的二元属性被称作?(C )(共 1 分)
A、计数属性
B、离散属性
C、非对称的二元属性
D、对称属性
31、在 K-means 聚类算法中,K 代表什么?(B )(共 1 分)
A、数据点的数量
B、初始聚类中心的数量
C、迭代次数
D、聚类后数据的方差
32、pandas 是基于 NumPy 的一种工具,该工具是为了解决什么问题而创建的?( C)(共 1 分)
A、数据统计任务
B、信息采集任务
C、数据分析任务
D、资料整理任务
33、从研究现状上看,下面不属于云计算特点的是?( C)(共 1 分)
A、超大规模
B、虚拟化
C、私有化
D、高可靠性
34、在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是?( D)(共 1 分)
A、有放回的简单随机抽样
B、无放回的简单随机抽样
C、分层抽样
D、渐进抽样
35、数据挖掘中,决策树算法主要用于解决什么类型的问题?( B)(共 1 分)
A、回归
B、分类
C、聚类
D、关联规则挖掘
36、发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和__,利用数据挖 掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。(D )(共 1 分)
A、最小兴趣度
B、最小置信度
C、最大支持度
D、最小可信度
37、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务? (C )(共 1 分)
A、根据内容检索
B、建模描述
C、预测建模
D、寻找模式和规则
38、用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)(共 1 分)
A、根据内容检索
B、建模描述
C、预测建模
D、寻找模式和规则
39、一个对象的离群点得分是该对象周围密度的逆。这是基于______的离群点定义。( C)(共 1 分)
A、概率
B、邻近度
C、密度
D、聚类
40、聚类分析通常要求以下哪项?(C )(共 1 分)
A、类别内数据“差异性”尽可能小,类别间“差异性”尽可能小
B、类别内数据“差异性”尽可能大,类别间“差异性”尽可能大
C、类别内数据“差异性”尽可能小,类别间“差异性”尽可能大
D、类别内数据“差异性”尽可能大,类别间“差异性”尽可能小
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值