大数据技术【8】

1.以下哪个不属于大数据技术的特征()。

A.全面分析数据
B.重视数据的复杂性
C.随机抽样
D.关注数据的相关性

2.许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险,这是大数据在()的技术。

A.数据校验
B.预测分析
C.数据整合
D.知识搜索

3.()是在已知各种情况发生概率的基础上,通过构成树状结构来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

A.文本树
B.决策树
C.哈夫曼树
D.生成树

4.现在非结构化数据大约占人类数据总量的25%。。

5.如下哪个不是最近邻分类器的特点。()

A.可以生产任意形状的决策边界
B.分类一个测试样例开销很大
C.它使用具体的训练实例进行预测,不必维护源自数据的模型
D.最近邻分类器基于全局信息进行预测

6.以下哪些算法是分类算法()。

A.DBSCAN
B.EM
C.C4.5
D.K-Means

7.Kmeans算法包括如下步骤:①在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;②更新中心点为每类的均值;③随机选取k个中心点;④j选择一项:a.③①②④b.①④③②c.①②③④d.④③②①

A.③①②④
B.①④③②
C.①②③④
D.④③②①

8.()反映数据的精细化程度,越细化的数据,价值越高。

A.规模
B.活性
C.颗粒度
D.关联度

9.()是研究两个或两个以上处于同等地位的随机变量相关性的统计分析方法,包括变量之间是否存在依存关系,存在什么样的依存方向等等。

A.判别分析
B.回归分析
C.相关分析
D.主成分分析

10.以下哪个属于非关系型数据库()。

A.SQL
B.Access
C.MonogoDB
D.Mysql

11.大数据的()指数据能够被组织并呈现。借助于图形化手段,清晰有效地传达和沟通信息。基于数据,借助可视化手段提高大脑利用率。

A.可视化
B.多样性
C.大量性
D.低价值密度

12.C4.5是一种决策树的算法。

13.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?

A.根据内容检索
B.寻找模式和规则
C.预测建模
D.建模描述

14.()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据归约
B.数据变换
C.数据清洗
D.数据集成

16.()框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。

A.master
B.Reduce
C.Map/Reduce
D.Map

17.以下哪一项不属于Hadoop可以运行的模式()。

A.互联模式
B.伪分布式模式
C.单机(本地)模式
D.分布式模式

18.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题()。

A.关联规则发现
B.自然语言处理
C.聚类
D.分类

19.传统营销模式比基于大数据的营销模式针对性更强。

20.KNN算法是分类算法。

21.大数据可视化可以用在以下何种场景()。

A.股票趋势
B.其余所有选项均可
C.公司财务报表、销售统计
D.电子地图

22.Kmeans算法包括如下步骤:①在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;②更新中心点为每类的均值;③随机选取k个中心点;④j选择一项:a.③①②④b.④③②①c.①④③②d.①②③④

A.③①②④
B.④③②①
C.①④③②
D.①②③④

23.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

24.以下哪些算法是基于规则的分类器()。

A.朴素贝叶斯
B.KNN
C.C4.5
D.人工神经网络

25.将以下大数据的6V特征对应起来

26.HDFS默认BlockSize是256MB。

27.以下哪个属于非关系型数据库()。

A.Access
B.Mysql
C.SQL
D.MonogoDB

28.()是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。

A.Tomcat
B.NoSQL
C.Linux
D.Hadoop

29.以下哪些分类方法可以较好地避免样本的不平衡问题()。

A.SVM
B.Bayes
C.神经网络
D.KNN

30.以下哪个不属于有监督学习技术()。

A.朴素贝叶斯
B.CART
C.K-Means
D.线性回归

31.噪声和数据错误是不同的。

32.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。

A.聚类分析
B.关联规则挖掘
C.时序预测
D.分类与回归

33.利用数据融合、数学模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。()

34.在噪声数据中,波动数据比离群点数据偏离整体水平更大。

35.以下哪一项不属于Hadoop可以运行的模式()。

A.互联模式
B.伪分布式模式
C.分布式模式
D.单机(本地)模式

36.传统营销模式比基于大数据的营销模式投入更小。

37.()是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。

A.预测分析
B.主成分分析
C.回归分析
D.指数分析

38.数据可视化中实现中数据映射指的是()

A.视图的选择与用户交互控制的设计
B.概括现实生活中用户遇到的问题
C.从数据源中选取有效数据
D.确定数据到标记和视觉通道的映射

39.大数据的应用注重相关分析而不是因果分析。

40.可用作数据挖掘分析中的关联规则算法有()。

A.决策树
B.K均值法
C.Apriori算法
D.线性回归

41.HDFS中的block默认保存()份

A.不确定
B.1
C.2
D.3

42.下列关于网络用户行为的说法中,错误的是()。

A.数字轨迹用完即自动删除
B.网络公司能够捕捉到用户在其网站上的所有行为
C.用户离散的交互痕迹能够为企业提升服务质量提供参考
D.用户的隐私安全很难得以规范保护

A.三
B.二
C.四
D.一

44.数据挖掘的目标在于数据采集策略。

45.以下哪些分类方法可以较好地避免样本的不平衡问题()。

A.Bayes
B.KNN
C.神经网络
D.SVM

46.线性回归可用于预测分析。

47.以下哪些算法是分类算法()。

A.K-Means
B.DBSCAN
C.EM
D.C4.5

48.()框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。

A.Reduce
B.Map
C.Map/Reduce
D.master

49.计算机数据存储的容量单位,1KB<1MB<1GB。

50.()是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。它实现了一个分布式文件系统,充分利用集群的威力进行高速运算和存储。

A.Tomcat
B.NoSQL
C.Hadoop
D.Linux

51.下面哪一项不属于大数据系统的必备要素()。

A.物联网
B.云平台
C.数据库
D.数据

52.人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为人们生产生活带来有益的改变。

53.以下哪个选项是目前利用大数据分析技术无法进行有效支持的()。

A.新型病毒的分析判断
B.个人消费习惯分析及预测
C.精确预测股票价格
D.天气情况预测

54.()是一种用作显示一组数据分散情况资料的统计图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

A.直方图
B.雷达图
C.箱形图
D.折线图

55.数据生命周期管理旨在产生效益的同时,降低生产成本。

56.Hadoop只有单机版运行模式。

57.以下哪个不属于大数据的关键技术()。

A.可视化
B.并行化
C.流处理
D.数据表

58.大数据的()指数据能够被组织并呈现。借助于图形化手段,清晰有效地传达和沟通信息。基于数据,借助可视化手段提高大脑利用率。

A.多样性
B.低价值密度
C.大量性
D.可视化

59.电商网站上的"猜你喜欢”实际上是基于()原理。

A.数据仓库
B.推荐系统
C.网络爬虫
D.物联网

60.回归算法可用于预测分析。

61.以下哪个不是决策树的算法()。

A.CART
B.C4.5
C.ID3
D.Prim

62.数据的不确定性的产生原因不包括()。

A.数据采集与传输
B.数据精度转换
C.数据特征描述
D.缺失值处理

63.MapReduce任务过程分为两个处理阶段:map阶段和()阶段。。

A.map
B.master
C.reduce
D.Map/Reduce

64.以下哪个不是决策树的算法()。

A.ID3
B.C4.5
C.CART
D.Prim

65.以下哪个不属于大数据的技术特征()。

A.分析全面的数据
B.关注数据的相关性
C.重视数据的复杂性
D.力求数据的精确性

66.HDFS中的block默认保存()份

A.不确定
B.1
C.3
D.2

67.大数据的(),指的是数据有很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显、且语法或句义不连贯。

A.大量性
B.高速
C.低价值密度
D.多样性

68.可视化实现时,根据可视化目标选择相应的图表形式,如果关注3个变量的分布情况,可选择()。

A.二维散点图
B.3D区域图
C.折线直方图
D.柱状直方图

69.决策树中不包含一下哪种结点()。

A.外部结点
B.叶结点
C.根结点
D.内部结点

70.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

71.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器。

72.许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险,这是大数据在()的技术。

A.知识搜索
B.数据整合
C.数据校验
D.预测分析

73.以下说法不正确的是()。

A.分类是预测数据对象的离散类别。
B.预测是用于数据对象的连续取值。
C.决策树方法通常用于关联规则挖掘。
D.Apriori算法是一种典型的关联规则挖掘算法。

74.以下哪一项不属于Hadoop可以运行的模式()。

A.分布式模式
B.互联模式
C.伪分布式模式
D.单机(本地)模式

75.高德地图中的实时路况是一种大数据可视化的应用。

76.可视化实现时,根据可视化目标选择相应的图表形式,如果关注3个变量的分布情况,可选择()。

A.3D区域图
B.二维散点图
C.柱状直方图
D.折线直方图

77.Hadoop框架中最核心的设计是()。

A.Hive和HDFS
B.MapReduce和HDFS
C.MapReduce和Hive
D.ZooKeeper和HDFS

78.()主要包括偏态和峰值,常见的有正态分布、偏态分布等。

A.数据分布形状
B.集中趋势度量
C.数据属性
D.离中趋势度

79.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

A.离群点
B.边界点
C.核心点
D.质心

80.MapReduce中每个reducer的输入都是随机的。

81.()是数值数据分布的精确图形表示,是一个连续变量(定量变量)的概率分布的估计。它是一种条形图。

A.折线图
B.圆环图
C.散点图
D.直方图

82.()框架由一个单独的masterJobTracker和每个集群节点一个slaveTaskTracker共同组成。

A.Map/Reduce
B.Reduce
C.master
D.Map

83.分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。

A.时序预测
B.聚类分析
C.分类与回归
D.关联规则挖掘

84.大数据的6V特征中,Volume表示()

A.低价值密度
B.多样
C.高速
D.大量

85.以下哪个是聚类分析的典型算法()。

A.Apriori算法
B.K均值算法
C.KNN算法
D.SVM算法

86.Hadoop框架中最核心的设计是()。

A.ZooKeeper和HDFS
B.MapReduce和HDFS
C.MapReduce和Hive
D.Hive和HDFS

87.以下哪个不是决策树的算法()。

A.C4.5
B.Prim
C.CART
D.ID3

88.聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有较大的相似性,而不同簇间的对象有较大的相异性。

89.数据的不确定性的产生原因不包括()。

A.缺失值处理
B.数据特征描述
C.数据精度转换
D.数据采集与传输

90.HDFS中的block默认只保存1份。

91.监督学习的实例或数据对象没有类别标记。

92.BIRCH是一种()。

A.聚类算法
B.关联分析算法
C.分类器
D.特征选择算法

93.下列关于MapReduce说法不正确的是()。。

A.MapReduce程序只能用Java语言编写
B.MapReduce是一种计算框架
C.MapReduce隐藏了并行计算的细节,方便使用
D.MapReduce来源于google的学术论文

94.以下关于大数据可视化的说法,不正确的是()

A.对多维数据进行切片、块、旋转等动作剖析数据,从而多角度多侧面观察数据
B.能够把抽象、枯燥或难以理解的内容,包括看似毫无意义的数据、信息、知识等等以一种容易理解的视觉方式展示出来
C.涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术
D.大数据可视化利用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术

95.BIRCH是一种()。

A.关联分析算法
B.聚类算法
C.分类器
D.特征选择算法

96.如下哪个不是最近邻分类器的特点。()

A.分类一个测试样例开销很大
B.最近邻分类器基于全局信息进行预测
C.可以生产任意形状的决策边界
D.它使用具体的训练实例进行预测,不必维护源自数据的模型

97.数据的不确定性的产生原因不包括()。

A.数据特征描述
B.数据精度转换
C.数据采集与传输
D.缺失值处理

98.分类是预测数据对象的连续类别。。

99.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务()。

A.预测建模
B.建模描述
C.探索性数据分析
D.寻找模式和规则

100.下面关于数据开放的陈述哪个是不正确的()。

A.允许公众免费查询、下载
B.要提供全部的原始数据
C.要提供应用程序开放接口
D.允许公民要求数据开放数据

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值