大数据技术原理及应用—题库

1、试述大数据的4各基本特征(4V)。如果是5V,还要增加哪个V?
答案:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value);
     数据的准确性和可信赖度,即数据的质量 (Veracity)
2、请从大数据的视角分析影片《点球成金》如何获得成功?(从现状、方法和结果分析)
答案: 查找相关资料进行进行简述。
3、指出大数据包含的各技术和核心技术。
 答案: 参见P16(分别有4个和2个)
4、大数据计算模式及其代表产品。
 答案:参见P17
5、简述IaaS、Paas和SaaS。
 答案: 
参考PPT
6、简述大数据与云计算、物联网的关系。
 答案: P27(区别和联系)
7、请说一下Hadoop生态系统中各组件的功能。 
答案: HDFS(分布式文件系统)、HBASE(实时读写分布式列式数据库)、MapReduce(分布式数据处理、计算)、Hive(数据仓库)、Pig(数据流和运行环境)、Mahout(数据挖掘)、ZooKeeper(协同工作系统)、Flume(数据采集、聚合和传输系统)、Sqoop(Hadoop和关系数据库之间交换数据)
 
8、指出伪分布式Hadoop安装的几个步骤、两个配置文件名(xml)及主要作用。
答案: 安装SSH和配置SSH无密码登录;apt-get install openssh-server;ssh localhost等
安装Java环境;配置 ~/.Bashrc
Hadoop伪分布式安装,配置core-site.xml和hdfs-site.xml
9、启动并判断Hadoop的步骤(命令)。
答案: ssh localhost;hdfs namenode -format;start-dfs.sh(或start-all.sh)
10、完成以下任务:
(1)创建hdfs主目录/user/hadoop
(2)创建hdfs的input目录
(3)把本地/usr/local/hadoop/etc/hadoop下的*.xml拷贝到上述input中
(4)运行
     hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input 'dfs[a-z.]+'
    结果是什么?
答案: 参见:PPT及实验参考书
11、试述HDFS中名称节点和数据节点的具体功能?
答案:  P47
12、简述第二名称节点工作过程。
答案:P51-52,PPT 
第二名称节点完成两个功能:1.EditLog与FsImage合并;2.保存名称节点中元数据信息
再稍作展开描述。
13、简述HDFS读数据的过程。
答案: P57-58
 
14、简述HBASE与传统数据库的区别。
答案:P68-69,PPT:数据类型(HBase:简单数据模型;丰富的数据类型和存储方式)、数据操作(HBase只有简单的插入、查询、删除、清空等;关系型数据库:表之间的连接等)、存储模式(列式、行式存储)、数据索引(只有一个行键索引)、数据维护(就只数据覆盖与否)、可伸缩性(横向扩展) 
15、简述HBASE系统基本框架以及每个组成部分的作用。
答案: 基本框架:
客户端:访问HBase的接口
ZooKeeper服务器:提供集群可靠的协同服务
Master注服务器:管理表的操作;负Region服务器之间的负载均衡;Region分裂或和合并后,负责重新调整Region的分布;Region失效后的Region迁移
Region服务器:负责维护分配给自己的Region,相应用户读写请求
16、当前大数据技术的基础是由(     )首先提出的。
A、 微软  B、百度  C、谷歌 D、阿里巴巴
答案: C
17、大数据的起源是(    )。 
A、金融  B、电信  C、互联网 D、公共管理 
答案: C
18、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(     )。 
A、 数据管理人员   B、数据分析员 C、研究科学家 D、软件开发工程师 
答案: C
19(   )反映数据的精细化程度,越细化的数据,价值越高。
A、 规模  B、活性 C、关联度 D、粒度(颗粒度) 
答案: D
20、数据清洗的方法不包括(    )。
A、 缺失值处理  B、 噪声数据清除 C、一致性检查  D、重复数据记录处理 
答案: D
21、智能健康手环的应用开发,体现了(     )的数据采集技术的应用。
A、 统计报表  B、传感器  C、API接口  D、网络爬虫 
答案: B
22、智慧城市的构建,不包含(    )。
A、 联网监控 B、物联网 C、数字城市  D、云计算 
答案: A
23、大数据4V特征的最显著的是(   )。
A、 数据规模大  B、数据类型多样  C、数据处理速度快 D、数据价值密度高 
答案: A
24、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(    )。 
A、在数据基础上倾向于全体数据而不是抽样数据
B、 在分析方法上更注重相关分析而不是因果分析
C、 在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
答案: B
25、下列关于舍恩伯格对大数据特点的说法中,错误的是(   )。 
A、 数据规模大
B、 数据类型多样 
C、 数据处理速度快 
D、 数据价值密度高 
答案: D
解析:数据价值密度低,但总的数据价格高。 
26、当前社会中,最为突出的大数据环境是(   )。
A、互联网
B、 物联网 
C、 综合国力 
D、 自然资源 
答案: A
27、下列关于计算机存储容量单位的说法中,错误的是(   )。
A、1KB<1MB<1GB
B、基本单位是字节(Byte)
C、一个汉字需要一个字节的存储空间
D、一个字节能够容纳一个英文字符
答案: C
28、下列关于聚类挖掘技术的说法中,错误的是(   )。 
A、 不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
D、与分类挖掘技术相似的是,都是要对数据进行分类处理
答案: B
29、下列关于大数据的分析理念的说法中,错误的是(    )。
A、 在数据基础上倾向于全体数据而不是抽样数据
B、 在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
答案: D
30、数据仓库的最终目的是(   )。 
A、收集业务需求
B、建立数据仓库逻辑模型
C、开发数据仓库的应用分析 
D、 为用户和业务部门提供决策支持 
答案: D
31、支撑大数据业务的基础是(   )。
A、数据科学 B、数据应用  C、数据硬件  D、数据人才 
答案: B
32、当前,大数据产业发展的特点是(     )。 (选3个)
A、规模较大 B、规模较小  C、增速很快 D、多产业交叉融合
答案: ACD
33、大数据人才整体上需要具备(ABE )等核心知识。 (选3个)
A、数学与统计知识  B、计算机相关知识 C、市场运营管理知识 D、在特定业务领域的知识
答案: ABD
34、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。
答案: 错误
35、一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。
答案: 正确
36、谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。
答案: 错误
解析:不是数据重组和扩展,而是利用关键词等。 
37、啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。
答案: 错误
解析:大数据分析的应该是相关性,而不是因果性。 
38、下列演示方式中,不属于传统统计图方式的是(  )。
A、 柱状图 B、饼状图 C、曲线图 D、网络图 
答案: D
39、面向用户提供大数据一站式部署方案,包括数据中心和服务器等硬件、数据分析应用软件及技术运维支持等多方面内容的大数据商业模式是(  )。
A、 大数据解决方案模式 B、大数据信息分类模式 C、大数据处理服务模式 D、大数据资源提供模式 
答案: A
40、人类自古以来在科学上先后经历了实验、理论、计算和统计四种范式.
答案: 错误
41、请比较Nosql数据看和关系数据库的优缺点。
答案: 
参考书本P101-102或PPT相关内容:重点:一致性、数据完整性
42、试述键值数据库、列族数据库、文档数据库和图数据库的使用场合和优缺点。
答案: 参看P103-105,PPT
43、怎样理解列族数据库(HBASE)实际上也是键值数据库?
答案: 键值对:
键----行键+列族+列+时间戳;
值---单元格的值
44、假设执行单词统计任务的Mapreduce中,有3个文档:
1、Hello,How are you
      2、Hello every body
3、We are studying Hadoop
每行分配给一个Map任务,使以该例来说明MapReduce的工作原理。
答案:参看PPT或书本或实验书
 要点:针对MapReduce执行的全过程主要阶段(读入数据、执行Map任务输出中检结果、Shuffle后发送到Reduce任务、执行Reduce任务得到种种结果并写入分布式文件系统)展开描述:
45、下列两表进行标准连接(在SQL SERVER中:select  * from Order a,Item b where a.Orderid=b.Orderid),请描述MapReduce如何实现该自然连接?
Order表
---------------------------
Orderid   Account  Date
---------------------------
1        a     d1
2        a     d2
3        b     d3
---------------------------
 
Item表
----------------------------
Orderid Itemid  Num
1        10       1
1        20       3
2        10       5
2        50      100
3        20       1    
-----------------------------
 
答案: 
参考书本或PPT相关内容
 
46、大数据的核心就是(     )。
A、 告知与许可   B、预测 C、匿名化 D、规模化 
答案: B
47、大数据不是要教机器像人一样思考。相反,它是(  )
A、 把数学算法运用到海量的数据上来预测事情发生的可能性。 
B、 被视为人工智能的一部分。 
C、 被视为一种机器学习。 
D、 预测与惩罚。 
答案: A
48、采样分析的精确性随着采样随机性的增加而( ),但与样本数量的增加关系不大。
A、 降低  B、不变  C、提高 D、无关 
答案: C
49、大数据是指不用随机分析法这样的捷径,而采用(  )的方法。
A、 所有数据 
B、 绝大部分数据 
C、 适量数据 
D、 少量数据 
答案: A
50、大数据的简单算法与小数据的复杂算法相比(  )  
A、 更有效 
B、 相当 
C、 不具备可比性 
D、 无效 
答案: A
51、相比依赖于小数据和精确性的时代,大数据因为更强调数据的(   ),帮助我们进一步接近事实的真相。
A、 安全性 
B、 完整性 
C、 混杂性 
D、 完整性和混杂性 
答案: D
52、大数据的发展,使信息技术变革的重点从关注技术转向关注(  )
A、 信息 
B、 数字 
C、 文字 
D、 方位 
答案: A
53、大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道(  )
A、 原因 
B、 是什么 
C、 关联物 
D、 预测的关键 
答案: B
54、建立在相关关系分析法基础上的预测是大数据的(  )
A、 基础 
B、 前提 
C、 核心 
D、 条件 
答案: C
55、下列说法正确的是(  )
A、 有价值的数据是附属于企业经营核心业务的一部分数据; 
B、 数据挖掘它的主要价值后就没有必要再进行分析了; 
C、 所有数据都是有价值的; 
D、 在大数据时代,收集、存储和分析数据非常简单  
答案: C
56、关于数据创新,下列说法正确的是( )
A、 多个数据集的总和价值等于单个数据集价值相加; 
B、 由于数据的再利用,数据应该永久保存下去; 
C、 相同数据多次用于相同或类似用途,其有效性会降低; 
D、 数据只有开放价值才能得到真正释放。 
答案: D
57、在大数据时代,下列说法正确的是(  )。
A、 收集数据很简单 
B、 数据是最核心的部分 
C、 对数据的分析技术和技能是最重要的 
D、 数据非常重要,一定要很好的保护起来,防止泄露 
答案: B
58、随着数据科学家的崛起,(  )的地位将发生动摇。
A、 国家领导人 
B、 大型企业 
C、 行业专家和技术专家 
D、 职业经理人 
答案: C
59、大数据公司的多样性表明了(  )
A、 数据作用的体现 
B、 数据价值的转移 
C、 数据技术的发展 
D、 数据思维的创新 
答案: B
60、以下哪种说法是错误的(  )
A、 将罪犯的定罪权放在数据手中,借以表达对数据和分析结果的崇尚,这实际上是一种滥用。 
B、 随着数据量和种类的增多,大数据促进了数据内容的交叉检验,匿名化的数据不会威胁到任何人的隐私。 
C、 采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序。 
D、 预测与惩罚,不是因为所做,而是因为将做。 
答案: B
61、只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成( )
A、 强大的威胁 
B、 强大的武器 
C、 预测工具 
D、 分析工具 
答案: B
62、在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于(   )为其行为承担责任。
A、 数据使用者 
B、 数据提供者 
C、 个人许可 
D、 数据分析者 
答案: A
63、对大数据使用进行正规评测及正确引导,可以为数据使用者带来什么切实的好处(  )
A、 他们无须再取得个人的明确同意,就可以对个人数据进行二次利用。

B、 数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任。

C、 数据使用者的责任不需要强制力规范就能确保履行到位。

D、 所有项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或减轻潜在伤害。 
答案: A
64、促进隐私保护的一种创新途径是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值