大数据练习题

最新推荐文章于 2024-04-27 22:16:46 发布

哎一入江湖岁月催

最新推荐文章于 2024-04-27 22:16:46 发布

阅读量2.6k

点赞数

分类专栏：公司笔试，面试，真题及答案文章标签： big data linux 大数据

本文链接：https://blog.csdn.net/qq_26816591/article/details/125019436

版权

公司笔试，面试，真题及答案专栏收录该内容

6 篇文章 1 订阅

订阅专栏

单选题（共 201 题，共 201 分）
1. (1 分)
在Linux中，进程优先级的相关参数有多个，与实时进程优先级相关的参数是？
A：policy
B：counter
C：priority
D：rt_priority
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux内核与模块

2. (1 分)
下列哪个程序通常与 NameNode 在一个节点启动?
A：SecondaryNameNode
B：DataNode
C：TaskTracker
D：Jobtracker
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

3. (1 分)
Linux文件权限一共10位长度，分成四段，第三段表示的内容是？
A：文件类型
B：文件所有者的权限
C：文件所有者所在组的权限
D：其他用户的权限
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

4. (1 分)
Mapreduce适用于?
A：任意应用程序
B：任意可在windows servet2008上运行的程序
C：可以串行处理的应用程序
D：可以并行处理的应用程序
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 大数据

5. (1 分)
一下哪个关键字来定义记录在某属性上的约数条件？
A：default
B：distinct
C：unique
D：check
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > SQL

6. (1 分)
hadoop 1.x的HDFS默认Block Size的大小是？
A：32MB
B：256MB
C：128MB
D：64MB
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

7. (1 分)
当前大数据技术的基础是由谁首先提出的？
A：谷歌
B：阿里巴巴
C：百度
D：微软
我的答案:

正确答案: A
解析
[技能点:]
分布式系统理论 > 分布式存储理论

8. (1 分)
查看内核信息的命令是？
A：uname -a
B：ls -l
C：cd
D：tail -f
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux内核与模块

9. (1 分)
某企业计划规定本年产值比上年增长4%，实际增长6%，则该企业产值计划完成程度为？
A：150%
B：101.9%
C：66.7%
D：无法计算
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学基础

10. (1 分)
大数据的利用过程是？
A：采集—挖掘—清洗—统计
B：采集—统计—清洗—挖掘
C：采集—清洗—挖掘—统计
D：采集—清洗—统计—挖掘
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

11. (1 分)
关于Hadoop单机模式和伪分布式模式的说法，正确的是
A：两者都起守护进程，且守护进程运行在一台机器上
B：单机模式不使用HDFS，但加载守护进程
C：两者都不与守护进程交互，避免复杂性
D：后者比前者增加了HDFS输入输出以及可检查内存使用情况
我的答案:

正确答案: D
解析
[技能点:]
Hadoop > Hadoop常用组件

12. (1 分)
默认情况下管理员创建了一个用户，就会在哪个目录下创建一个用户主目录？
A：/usr
B：/home
C：/root
D：/etc
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

13. (1 分)
如何删除一个非空子目录/tmp?
A：del /tmp/*
B：rm -rf /tmp
C：rm -Ra /tmp/*
D：rm –rf /tmp/*
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

14. (1 分)
storm进程运行的程序是？
A：nimbus
B：supervisor
C：两者都有
D：两者都不是
我的答案:

正确答案: C
解析
[技能点:]
实时计算 > Storm

15. (1 分)
如果一个匹配中,任何一个节点都不同时是两条或多条边的端点,也称作?
A：极大匹配
B：二分匹配
C：完美匹配
D：极小匹配
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

16. (1 分)
下面有关大数据的理解，错误的是？
A：现在已进入大数据的时代
B：在各个领域都有大数据
C：大数据无所不能
D：大数据是社会的进步体现
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

17. (1 分)
Linux系统的开发模型是？
A：教堂模型
B：集市模型
C：层次模型
D：网状模型
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

18. (1 分)
Samba服务器的配置文件是？
A：httpd.conf
B：inetd.conf
C：rc.samba
D：smb.conf
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux文件系统

19. (1 分)
在LINUX中，要查看文件内容，可使用什么命令？
A：more
B：cd
C：login
D：logout
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

20. (1 分)
Linux有三个查看文件的命令，若希望在查看文件内容过程中可以用光标上下移动来查看文件内容，应使用命令?
A：cat
B：less
C：more
D：tail
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

21. (1 分)
可用作数据挖掘分析中的关联规则算法有?
A：决策树、对数回归、关联模式
B：K均值法、SOM神经网络
C：Apriori算法、FP-Tree算法
D：RBF神经网络、K均值法、决策树
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

22. (1 分)
Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括
A：conf-site.xml
B：mapred-site.xml
C：core-site.xml
D：hdfs-site.xml
我的答案:

正确答案: A
解析
[技能点:]
Hadoop > Hadoop常用组件

23. (1 分)
HBase依靠什么存储底层数据？
A：HDFS
B：Hadoop
C：Memory
D：MapReduce
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

24. (1 分)
在下列分区中，Linux默认的分区是？
A：FAT32
B：EXT3
C：FAT
D：NTFS
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

25. (1 分)
下面与HDFS类似的框架是？
A：NTFS
B：FAT32
C：GFS
D：EXT3
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

26. (1 分)
HBase依赖什么提供消息通信机制？
A：Zookeeper
B：Chubby
C：RPC
D：Socket
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

27. (1 分)
Sqoop是有什么作用？
A：连接hdfs与关系数据库
B：清洗数据
C：存储数据
D：转换数据
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

28. (1 分)
HFile数据格式中的Data字段用于？
A：存储实际的KeyValue数据
B：存储数据的起点
C：指定字段的长度
D：存储数据块的起点
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

29. (1 分)
关于HDFS的文件写入，正确的是？
A：支持多用户对同一文件的写操作
B：用户可以在文件任意位置进行修改
C：默认将文件块复制成三份存放
D：复制的文件块默认都存在同一机架上
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

30. (1 分)
某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？
A：关联规则发现
B：聚类
C：分类
D：自然语言处理
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

31. (1 分)
hadoop2.x新特性，错误的是？
A：引入了Namenode HA，解决了namenode单点故障
B：引入了YARN，负责资源管理和调度
C：引入了zookeeper，解决了横向内存扩展
D：增加了ResourceManager HA解决了ResourceManager单点故障
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

32. (1 分)
如下哪些不是最近邻分类器的特点？
A：它使用具体的训练实例进行预测，不必维护源自数据的模型
B：分类一个测试样例开销很大
C：最近邻分类器基于全局信息进行预测
D：可以生产任意形状的决策边界
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

33. (1 分)
下面不属于创建新属性的相关方法的是?
A：特征提取
B：特征修改
C：映射数据到新的空间
D：特征构造
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

34. (1 分)
在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是？
A：有放回的简单随机抽样
B：无放回的简单随机抽样
C：分层抽样
D：渐进抽样
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

35. (1 分)
hive是基于hadoop的一个数据仓库，它基于什么存储的
A：hdfs
B：MapReduce
C：S3
D：text
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

36. (1 分)
统计分组的依据是?
A：标志
B：指标
C：标志值
D：变量值
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学概述

37. (1 分)
LINUX交换分区的格式为?
A：ext2
B：ext3
C：FAT
D：swap
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux文件系统

38. (1 分)
有关hive的说法，错误的是？
A：hive有外部表与内部表之分
B：hive是一个结构化的数据
C：hive表的数据可修改
D：hive应用的是sql
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

39. (1 分)
光盘所使用的文件系统类型为?
A：ext2
B：ext3
C：/etc/rc.d/init.d
D：ISO 9660
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux文件系统

40. (1 分)
调查时间是指?
A：资料所属的时间
B：调查工作起止的时间
C：规定提交资料的时间
D：开始进行调查的时间
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学概述

41. (1 分)
一个bash shell脚本的第一行是?
A：#/bin/csh
B：#/bin/bash
C：/bin/bash
D：#!/bin/bash
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

42. (1 分)
Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块
A：Client
B：Namenode
C：Datanode
D：Secondary namenode
我的答案:

正确答案: A
解析
[技能点:]
Hadoop > HDFS

43. (1 分)
以下哪项关于决策树的说法是错误的?
A：冗余属性不会对决策树的准确率造成不利的影响
B：子树可能在决策树中重复多次
C：决策树算法对于噪声的干扰非常敏感
D：寻找最佳决策树是NP完全问题
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

44. (1 分)
以下关于人工神经网络（ANN）的描述错误的有?
A：神经网络对训练数据中的噪声非常鲁棒
B：可以处理冗余特征
C：训练ANN是一个很耗时的过程
D：至少含有一个隐藏层的多层神经网络
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

45. (1 分)
HFile数据格式中的MetaIndex字段用于
A：Meta块的长度
B：Meta块的结束点
C：Meta块数据内容
D：Meta块的起始点
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

46. (1 分)
LINUX所有服务的启动脚本都存放在?
A：/etc/rc.d/rc
B：/etc/rc.d
C：/etc/rc.d/init.d
D：/etc/init.d
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

47. (1 分)
LINUX用于启动系统所需加载的内核程序位于?
A：/
B：/lib/modules/2.4.20_8/kernel
C：/boot
D：/proc
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

48. (1 分)
下列那一个指令可以设定使用者的密码?
A：pwd
B：newpwd
C：passwd
D：password
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

49. (1 分)
什么是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的？
A：边界点
B：质心
C：离群点
D：核心点
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

50. (1 分)
一个文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？
A：1
B：2
C：3
D：4
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式数据管理

51. (1 分)
HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括
A：利用SequenceFile、MapFile、Har等方式归档小文件
B：多Master设计
C：Block大小适当调小
D：调大namenode内存或将文件系统元数据存到硬盘里
我的答案:

正确答案: D
解析
[技能点:]
Hadoop > HDFS

52. (1 分)
大数据的本质是？
A：洞察
B：搜集
C：联系
D：挖掘
我的答案:

正确答案: A
解析
[技能点:]
分布式系统理论 > 分布式存储理论

53. (1 分)
可以用来对文件xxx.gz解压缩的命令是?
A：compress
B：uncompress
C：gunzip
D：tar
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

54. (1 分)
支撑大数据业务的基础是？
A：数据科学
B：数据硬件
C：数据人才
D：数据应用
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

55. (1 分)
HDFS默认的当前工作目录是/user/$USER，fs.default.name的值需要在哪个配置文件内说明
A：mapred-site.xml
B：core-site.xml
C：hdfs-site.xml
D：以上均不是
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > HDFS

56. (1 分)
vi中哪条命令是不保存强制退出？
A：:wq
B：:wq!
C：:q!
D：:quit
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

57. (1 分)
以下哪个聚类算法不属于基于网格的聚类算法?
A：STING
B：WaveCluster
C：MAFIA
D：BIRCH
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

58. (1 分)
用于分类与回归应用的主要算法有:
A：Apriori算法、HotSpot算法
B：RBF神经网络、K均值法、决策树
C：K均值法、SOM神经网络
D：决策树、BP神经网络、贝叶斯
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

59. (1 分)
Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是
A：安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B：根据策略对数据块进行必要的复制或删除
C：当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D：文件系统允许有修改
我的答案:

正确答案: D
解析
[技能点:]
Hadoop > HDFS

60. (1 分)
下面关于kafka，错误的是？
A：kafka的信息复制确保了任何已发布的消息不会丢失，并且可以在机器错误、程序错误或更常见些的软件升级中使用
B：在Kafka中传递消息是通过使用sendfile API完成的
C：Kafka服务器可以接收到的消息的最大大小是1000字节
D：Kafka是由Apache开发的一种发布订阅消息系统，它是一个分布式的、分区的和重复的日志服务
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

61. (1 分)
在UNIX/Linux系统添加新用户的命令是?
A：groupadd
B：usermod
C：userdel
D：useradd
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

62. (1 分)
HBase虚拟分布式模式需要节点数？
A：1
B：2
C：3
D：4
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

63. (1 分)
在storm中，协调nimbus和supervidor的是？
A：zookeeper
B：oracle
C：hive
D：,hdfs
我的答案:

正确答案: A
解析
[技能点:]
实时计算 > Storm

64. (1 分)
下列关于大数据的说法中，错误的是？
A：处理大数据需采用新型计算架构和智能算法等新技术
B：大数据具有体量大、结构单一、时效性强的特征
C：大数据的应用注重相关分析而不是因果分析
D：大数据的目的在于发现新的知识与洞察并进行科学决策
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

65. (1 分)
下面哪个端口不是 spark 自带服务的端口
A：8080
B：4040
C：8090
D：18080
我的答案:

正确答案: C
解析
[技能点:]
实时计算 > Spark-streaming

66. (1 分)
某种年报制度规定在次年1月31日前上报，则调查期限为？
A：1个月
B：1年
C：1年零1月
D：2个月
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学基础

67. (1 分)
Client 端上传文件的时候下列哪项正确?
A：Client 端将文件切分为 Block，依次上传
B：Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作
C：数据经过 NameNode 传递给 DataNode
D：发送完成信号给SeceonderNameNode
我的答案:

正确答案: A
解析
[技能点:]
分布式系统理论 > 分布式存储理论

68. (1 分)
Stage 的 Task 的数量由什么决定
A：Partition
B：Job
C：Stage
D：TaskScheduler
我的答案:

正确答案: A
解析
[技能点:]
大数据 > Spark

69. (1 分)
hadoop yarn的web接口是？
A：8080
B：50070
C：8088
D：18080
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

70. (1 分)
RED HAT LINUX所提供的安装软件包，默认的打包格式为?
A：tar
B：tar.gz
C：rpm
D：zip
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

71. (1 分)
设X={1，2，3}是频繁项集，则可由X产生多少个关联规则？
A：1
B：2
C：3
D：6
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

72. (1 分)
对于Shell脚本程序，若输入参数数量多于9个，则程序遍历每个参数可通过使用什么命令实现
A：shift
B：ctrl
C：alt
D：shift+ctrl
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

73. (1 分)
下面哪个命令是用来定义shell的全局变量？
A：exports
B：alias
C：export
D：exportfs
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

74. (1 分)
在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为？
A：基于类的排序方案
B：基于规则的排序方案
C：基于度量的排序方案
D：基于规格的排序方案
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

75. (1 分)
关于OLAP和OLTP的区别描述,不正确的是?
A：OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
B：OLAP的特点在于事务量大,但事务内容比较简单且重复率高
C：与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务
D：OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

76. (1 分)
协调spark master HA的是？
A：zookeeper
B：oracle
C：hive
D：,hdfs
我的答案:

正确答案: A
解析
[技能点:]
实时计算 > Spark-streaming

77. (1 分)
在加权算术平均数中，如果各个变量值都扩大3倍，而频数都减少为原来的三分之一，则平均数?
A：不变
B：减少了
C：扩大3倍
D：不能确定
我的答案:

正确答案: C
解析
[技能点:]
统计学基础 > 统计学基础

78. (1 分)
按调查对象包括的范围不同，统计调查可以分为?
A：经常性调查和一次性调查
B：全面调查和非全面调查
C：统计报表和专门调查
D：普查和抽样调查
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学概述

79. (1 分)
在统计汇总时，如果只要求计算各组分配的单位数，可采用
A：过录法
B：划记法
C：折叠法
D：卡片法
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学概述

80. (1 分)
某班学生50名，男女生各占一半，该班学生性别成数的方差为
A：0.25
B：0.5
C：1
D：5
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学基础

81. (1 分)
检测一元正态分布中的离群点,属于异常检测中的基于什么的离群点检测?
A：统计方法
B：邻近度
C：密度
D：聚类技术
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

82. (1 分)
在Redhat公司发布的Linux版本中，若要使得用户登录验证，需要修改以下脚本？
A：/etc/inittab
B：/etc/passwd
C：/etc/shadow
D：/etc/group
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

83. (1 分)
hadoop master的web接口是？
A：8080
B：50070
C：8088
D：18080
我的答案:

正确答案: B
解析
[技能点:]
分布式文件系统 > 基本架构

84. (1 分)
数据、信息与知识三者之间的变化趋势是？
A：宏课程
B：大课程
C：小课程
D：微课程
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式存储理论

85. (1 分)
关于hadoop，错误的是？
A：Secondary namenode就是namenode出现问题时的备用节点
B：Hadoop的文件API不是通用的，只用于HDFS文件系统
C：FSDataInputStream是java.io.DataInputStream的子类
D：一台机器可能被指派从输入文件的任意位置开始处理一个分片
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 基本架构

86. (1 分)
下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是
A：FSDataInputStream扩展了DataInputStream以支持随机读
B：为实现细粒度并行，输入分片(Input Split)应该越小越好
C：一台机器可能被指派从输入文件的任意位置开始处理一个分片
D：输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > MapReduce & Yarn

87. (1 分)
HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件：
A：日志
B：命名空间镜像
C：两者都是
D：两者都不是
我的答案:

正确答案: C
解析
[技能点:]
Hadoop > HDFS

88. (1 分)
以下哪些算法是分类算法?
A：DBSCAN
B：C4.5
C：K-Mean
D：EM
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

89. (1 分)
sql语言中，删除表中的数据的命令是？
A：delete
B：drop
C：clear
D：remove
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > SQL

90. (1 分)
在数据生命周期管理实践中，什么是执行方法
A：数据存储和备份规范
B：数据管理和维护
C：数据价值发觉和利用
D：数据应用开发和管理
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

91. (1 分)
关于Linux内核版本的说法，以下错误的是?
A：表示为主版本号.次版本号.修正号
B：1.2.3表示稳定的发行版
C：1.3.3表示稳定的发行版
D：2.2.5表示对内核2.2的第5次修正
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

92. (1 分)
如果时间数列的逐期增长量大致相等，则适宜配合？
A：直线模型
B：抛物线模型
C：曲线模型
D：指数曲线模型
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学基础

93. (1 分)
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？
A：频繁模式挖掘
B：数据预处理
C：分类和预测
D：数据流挖掘
我的答案:

正确答案: B
解析
[技能点:]
数据挖掘 > 算法框架

94. (1 分)
在基本K均值算法里,当邻近度函数采用什么的时候,合适的质心是簇中各点的中位数？
A：平方欧几里德距离
B：余弦距离
C：Bregman散度
D：曼哈顿距离
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

95. (1 分)
SQL语言中允许使用通配符进行字符串匹配，其中‘%’可以表示？
A：零个字符
B：一个字符串
C：多个字符串
D：以上都是
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > SQL

96. (1 分)
分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于?
A：关联规则挖掘
B：分类与回归
C：聚类分析
D：时序预测
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

97. (1 分)
什么是KDD？
A：数据挖掘与知识发现
B：领域知识发现
C：文档知识发现
D：动态知识发现
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

98. (1 分)
如果要列出一个目录下的所有文件需要使用命令行?
A：ls
B：ls -l
C：ls -a
D：ls -d
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

99. (1 分)
想向表中添加一条记录，应该用哪一条sql语句？
A：alter table
B：insert into table
C：create table
D：drop table
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > SQL

100. (1 分)
下列哪项通常是集群的最主要瓶颈？
A：CPU
B：网络
C：磁盘 IO
D：内存
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

101. (1 分)
hdfs的存储大数据，错误的是？
A：适合大数据处理
B：一次写入，多次读取。文件一旦写入不能修改，只能追加
C：低延时数据访问
D：不可构建在廉价机器上
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 基本架构

102. (1 分)
当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？
A：分类
B：聚类
C：关联分析
D：隐马尔可夫链
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

103. (1 分)
下面标志符不合法的是
A：[my del]
B：_maybase
C：$money
D：tiger
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > SQL

104. (1 分)
下面与Zookeeper类似的框架是？
A：Protobuf
B：Java
C：Kafka
D：Chubby
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

105. (1 分)
BIRCH是一种?
A：分类器
B：聚类算法
C：关联分析算法
D：特征选择算法
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

106. (1 分)
OLAP技术的核心是?
A：在线性
B：对用户的快速响应
C：互操作性
D：多维分析
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

107. (1 分)
spark 的 master 和 worker 通过什么方式进行通信的？
A：http
B：nio
C：netty
D：Akka
我的答案:

正确答案: D
解析
[技能点:]
实时计算 > Spark-streaming

108. (1 分)
sql的视图是从哪里导出的？
A：基本表
B：视图
C：基本表或者视图
D：数据库
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > SQL

109. (1 分)
大数据的起源是？
A：金融
B：电信
C：互联网
D：公共管理
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 大数据

110. (1 分)
HBase分布式模式最好需要节点数？
A：1
B：2
C：3
D：4
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

111. (1 分)
在使用mkdir命令创建新的目录时，在其父目录不存在时先创建父目录的选项是？
A：-m
B：-p
C：-l
D：-a
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

112. (1 分)
以下选项中，哪个命令可以关机?
A：init0
B：init1
C：init5
D：init6
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

113. (1 分)
配置Hadoop时，JAVA_HOME包含在哪一个配置文件中
A：hadoop-default.xml
B：hadoop-env.sh
C：hadoop-site.xml
D：configuration.xml
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > Hadoop常用组件

114. (1 分)
在图集合中发现一组公共子结构,这样的任务称为？
A：频繁子集挖掘
B：频繁子图挖掘
C：频繁数据项挖掘
D：频繁模式挖掘
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

115. (1 分)
只有非零值才重要的二元属性被称作?
A：计数属性
B：离散属性
C：非对称的二元属性
D：对称属性
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

116. (1 分)
以下哪个命令可以终止一个用户的所有进程?
A：skillall
B：skill
C：kill
D：killall
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

117. (1 分)
ageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就?
A：越重要
B：越不重要
C：相关性越高
D：相关性越低
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

118. (1 分)
分布式最典型的产品是什么？
A：hadoop
B：mysql
C：spark
D：storm
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

119. (1 分)
一下哪个不是逻辑运算符？
A：NOT
B：AND
C：OR
D：IN
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > SQL

120. (1 分)
hadoop集群之间是什么提供消息通信机制
A：Zookeeper
B：Chubby
C：RPC
D：Socket
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

121. (1 分)
现在需要统计当前目录/home/zheng下普通文件的数目并显示结果,如何实现？
A：$find –type f | wc –l
B：$find f | wc –l
C：$find –type f | wc –c
D：$find f | wc –c
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

122. (1 分)
关联规则的评价指标是？
A：均方误差、均方根误差
B：Kappa统计、显著性检验
C：支持度、置信度
D：平均绝对误差、相对误差
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

123. (1 分)
欲把当前目录下的 file1.txt 复制为 file2.txt，正确的命令是?
A：copy file1.txt file2.txt
B：cp file1.txt | file2.txt
C：cat file2.txt file1.txt
D：cat file1.txt > file2.txt
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

124. (1 分)
下面关于文件 "/etc/sysconfig/network-scripts/ifcfg-eth0"的描述哪个是正确的?
A：它是一个系统脚本文件
B：它是可执行文件
C：它存放本机的名字
D：它指定本机eth0的IP地址
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux文件系统

125. (1 分)
为卸载一个软件包，应使用?
A：rpm -i
B：rpm -e
C：rpm -q
D：rpm -V
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

126. (1 分)
若一台计算机的内存为128MB，则交换分区的大小通常是？
A：64MB
B：128MB
C：256MB
D：512MB
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux文件系统

127. (1 分)
在创建Linux分区时，一定要创建哪两个分区?
A：FAT/NTFS
B：FAT/SWAP
C：NTFS/SWAP
D：SWAP/根分区
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux内核与模块

128. (1 分)
某文件的组外成员的权限为只读；所有者有全部权限；组内的权限为读与写，则该文件的权限为?
A：467
B：674
C：476
D：764
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

129. (1 分)
在vi编辑器里，命令"dd"用来删除当前的?
A：行
B：字
C：字符
D：变量
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

130. (1 分)
决策树中不包含一下哪种结点?
A：根结点
B：内部结点
C：外部结点
D：叶结点
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

131. (1 分)
下面选项中t不是s的子序列的是
A：s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B：s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C：s=<{1,2},{3,4}> t=<{1},{2}>
D：s=<{2,4},{2,4}> t=<{2},{4}>
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

132. (1 分)
第一个提出大数据概念的公司是？
A：微软公司
B：脸谱公司
C：谷歌公司
D：麦肯锡公司
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

133. (1 分)
下面哪个程序负责HDFS数据存储？
A：NameNode
B：secondaryNameNode
C：tasktracker
D：DataNode
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式数据管理

134. (1 分)
简单表与分组表的区别在于?
A：主词是否分组
B：宾词是否分组
C：分组标志的多少
D：分组标志是否重叠
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学概述

135. (1 分)
有关维克托·迈尔舍恩伯格对大数据的定义是哪个
A：数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成人类所能解读的信息
B：用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法
C："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率的信息资产
D：大数据就是量大
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 大数据

136. (1 分)
怎样显示当前目录？
A：pwd
B：who
C：ls
D：mkdir
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux文件系统

137. (1 分)
/etc/shadow文件中存放？
A：用户账号基本信息
B：用户口令的加密信息
C：用户组信息
D：文件系统信息
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux文件系统

138. (1 分)
在出生婴儿中，男性占53%，女性占47%，这是?
A：比例相对指标
B：强度相对指标
C：比较相对指标
D：结构相对指标
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学基础

139. (1 分)
数据仓库是随着时间变化的,下面的描述不正确的是？
A：数据仓库随时间的变化不断增加新的数据内容
B：捕捉到的新数据会覆盖原来的快照
C：数据仓库随事件变化不断删去旧的数据内容
D：数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

140. (1 分)
下面聚集函数中哪个只能用于计算数值类型的数据？
A：count()
B：min()
C：max()
D：sum()
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > SQL

141. (1 分)
Spark 支持的分布式部署方式中哪个是错误的
A：standalone
B：spark on mesos
C：spark on YARN
D：Spark on local
我的答案:

正确答案: D
解析
[技能点:]
实时计算 > Spark-streaming

142. (1 分)
出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是
A：namespaceID
B：storageID
C：storageType
D：layoutVersion
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > HDFS

143. (1 分)
大数据时代，数据使用的关键是？
A：数据存储
B：数据分析
C：数据再利用
D：数据分析
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式存储理论

144. (1 分)
HBase依赖什么提供强大的计算能力？
A：Zookeeper
B：Chubby
C：RPC
D：MapReduce
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

145. (1 分)
下面哪个属于映射数据到新的空间的方法？
A：傅立叶变换
B：特征加权
C：渐进抽样
D：维归约
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

146. (1 分)
对于System V类型的共享内存页面，Linux基于什么算法决定哪些页面应当被换出物理内存？
A：shell
B：clock
C：show
D：uname
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux内核与模块

147. (1 分)
在sql语言中，建立存储过程的命令是？
A：create procedure
B：create rule
C：create dure
D：create file
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > SQL

148. (1 分)
当运行在多用户模式下时，用Ctrl+ALT+F*可以切换多少虚拟用户终端？
A：1
B：2
C：6
D：4
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux文件系统

149. (1 分)
以下哪个聚类算法不是属于基于原型的聚类?
A：模糊C均值
B：EM算法
C：SOM
D：CLIQUE
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

150. (1 分)
Hive中存放是什么？
A：数据+元数据
B：数据
C：元数据
D：应用
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 元数据管理

151. (1 分)
在创建表的过程中，哪个关键字用来定义默认值
A：default
B：distinct
C：unique
D：check
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > SQL

152. (1 分)
Master 的 ElectedLeader 事件后做了哪些操作
A：通知 drive
B：通知 worker
C：注册 application
D：直接 ALIVE
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

153. (1 分)
关闭linux系统（不重新启动）可使用?
A：ctrl+alt+del
B：halt
C：shutdown -r
D：reboot
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

154. (1 分)
HBase来源于哪一项？
A：The Google File System
B：MapReduce
C：Chubby
D：BigTable
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

155. (1 分)
规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为?
A：置信度
B：可信度
C：兴趣度
D：支持度
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

156. (1 分)
哪个命令可以将普通用户转换成超级用户?
A：tar
B：super
C：mkdir
D：su
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

157. (1 分)
MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是？
A：实现Writable接口的类是值
B：实现WritableComparable接口的类可以是值或键
C：Hadoop的基本类型Text并不实现WritableComparable接口
D：键和值的数据类型可以超出Hadoop自身支持的基本类型
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

158. (1 分)
用最小平方法配合直线趋势，如果y=a+bx中b为正值，则这条直线呈？
A：下降趋势
B：上升趋势
C：不升不降
D：无法确定
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学基础

159. (1 分)
下面哪个命令用来启动X Window?
A：runx
B：Startx
C：startX
D：xwin
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux文件系统

160. (1 分)
标志变异指标中最常用的是？
A：全距
B：平均差
C：标准差
D：离散系数
我的答案:

正确答案: C
解析
[技能点:]
统计学基础 > 统计学概述

161. (1 分)
下列度量不具有反演性的是？
A：系数
B：几率
C：Cohen度量
D：兴趣因子
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

162. (1 分)
关于 SecondaryNameNode 哪项是正确的?
A：它对内存没有要求
B：它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
C：SecondaryNameNode 应与 NameNode 部署到一个节点
D：他没什么用
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

163. (1 分)
HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为
A：64M
B：75M
C：128M
D：一个map读取64MB，另外一个map读取11MB
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > MapReduce & Yarn

164. (1 分)
增长1%的绝对值是？
A：增长量与增长速度之比
B：逐期增长量与定基增长速度之比
C：增长量与发展速度之比
D：前期水平除以100
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学基础

165. (1 分)
变量是可变的
A：品质标志
B：数量标志
C：数量标志和指标
D：质量指标
我的答案:

正确答案: C
解析
[技能点:]
统计学基础 > 统计学概述

166. (1 分)
hadoop的监控，正确的是？
A：Ganglia 不仅可以进行监控，也可以进行告警
B：Nagios 是集群监控工具，而且是云计算三大利器之一
C：通过将 Ganglia 和 Nagios 组合起来，把 Ganglia 采集的数据作为 Nagios 的数据源，然后利用 Nagios 来发送预警通知
D：Nagios 不可以监控 Hadoop 集群
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 基本架构

167. (1 分)
若使pid进程无条件终止使用的命令是?
A：kill -9
B：kill -15
C：killall -9
D：kill -3
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux内核与模块

168. (1 分)
hive 的元数据存储在 derby 和 MySQL 中有什么区别
A：没区别
B：多会话
C：支持网络环境
D：数据库的区别
我的答案:

正确答案: B
解析
[技能点:]
分布式文件系统 > 数据管理

169. (1 分)
当前社会中，最为突出的大数据环境是？
A：互联网
B：物联网
C：综合国力
D：自然资源
我的答案:

正确答案: A
解析
[技能点:]
分布式系统理论 > 分布式存储理论

170. (1 分)
以下哪些分类方法可以较好地避免样本的不平衡问题?
A：KNN
B：SVM
C：Bayes
D：神经网络
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

171. (1 分)
协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度什么,并将这些用户喜欢的项推荐给有相似兴趣的用户？
A：相似
B：相同
C：推荐
D：预测
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

172. (1 分)
显示已经挂装的文件系统磁盘inode使用状况的命令是?
A：df -i
B：su -i
C：du -i
D：free -i
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux内核与模块

173. (1 分)
MapReduce的Map函数产生很多的?
A：key
B：value
C：
D：Hash
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 大数据

174. (1 分)
若要将鼠标从VM中释放出来，可按哪个键来实现？
A：Ctrl + Alt
B：Ctrl +Alt +Del
C：Ctrl +Alt +Enter
D：Ctrl +Enter
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

175. (1 分)
下面哪个不属于数据的属性类型?
A：标称
B：序数
C：区间
D：相异
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

176. (1 分)
什么是统计工作的根本准则，是统计工作的生命线？
A：及时性
B：完整性
C：连续性
D：真实性
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学概述

177. (1 分)
当使用mount进行设备或者文件系统挂载的时候，需要用到的设备名称位于哪个目录？
A：/home
B：/dev
C：/bin
D：/etc
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

178. (1 分)
已知各期环比增长速度为7.1%、3.4%、3.6%、5.3%，则定基增长速度是？
A：7.1%*3.4%*3.6%*5.3%
B：(7.1%*3.4%*3.6%*5.3%)-1
C：107.1%*103.4%*103.6%*105.3%
D：(107.1%*103.4%*103.6%*105.3%)-1
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学基础

179. (1 分)
统计对总体数量的认识是
A：从总体到单位
B：从单位到总体
C：从定量到定性
D：以上都对
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学概述

180. (1 分)
从研究现状上看，下面不属于云计算特点的是?
A：超大规模
B：虚拟化
C：私有化
D：高可靠性
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

181. (1 分)
HDfS中的block默认保存几份？
A：1
B：2
C：3
D：4
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式存储理论

182. (1 分)
通过聚集多个分类器的预测来提高分类准确率的技术称为
A：组合(ensemble)
B：聚集(aggregate)
C：合并(combination)
D：投票(voting)
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

183. (1 分)
一个对象的离群点得分是该对象周围密度的逆。这是基于什么的离群点定义？
A：概率
B：邻近度
C：密度
D：聚类
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

184. (1 分)
Linux系统中，用户文件描述符0表示？
A：标准输入设备文件描述符
B：标准输出设备文件描述符
C：管道文件描述符
D：标准错误输出设备文件描述符
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

185. (1 分)
Task 运行在下来哪里个选项中 Executor 上的工作单元
A：Driver program
B：spark master
C：worker node
D：Cluster manager
我的答案:

正确答案: C
解析
[技能点:]
实时计算 > Spark-streaming

186. (1 分)
大数据的最显著特征是？
A：数据类型多样
B：数据规模大
C：数据处理速度快
D：数据价值密度高
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

187. (1 分)
Spark Job 默认的调度模式？
A：FIFO
B：FAIR
C：无
D：运行时指定
我的答案:

正确答案: A
解析
[技能点:]
实时计算 > Spark-streaming

188. (1 分)
在Red Hat Linux中，系统默认的什么用户对整个系统拥有完全的控制权？
A：root
B：guest
C：administrator
D：supervistor.
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux文件系统

189. (1 分)
下列关于MapReduce说法不正确的是
A：MapReduce是一种计算框架
B：MapReduce来源于google的学术论文
C：MapReduce程序只能用java语言编写
D：MapReduce隐藏了并行计算的细节，方便使用
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式数据管理

190. (1 分)
概念分层图是什么图？
A：无向无环
B：有向无环
C：有向有环
D：无向有环
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

191. (1 分)
一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是?
A：一年级
B：二年级
C：三年级
D：四年级
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

192. (1 分)
下面哪个不是 RDD 的特点？
A：可分区
B：可修改
C：可序列化
D：可持久化
我的答案:

正确答案: B
解析
[技能点:]
实时计算 > Spark-streaming

193. (1 分)
HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是
A：一次写入少次读
B：多次写入少次读
C：多次写入多次读
D：一次写入多次读
我的答案:

正确答案: D
解析
[技能点:]
Hadoop > HDFS

194. (1 分)
属于SYSTEM Ⅴ进程间通信方式是？
A：管道
B：信号量
C：软中断信号
D：锁机制
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux内核与模块

195. (1 分)
在Red Hat Linux中，一般用什么命令来查看网络接口的状态
A：ifconfig
B：ipconfig
C：winipcfg
D：ping
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux文件系统

196. (1 分)
医疗健康数据的基本情况不包括以下哪项？
A：诊疗数据
B：个人健康管理数据
C：健康档案数据
D：公共安全数据
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

197. (1 分)
从后台启动进程，应在命令的结尾加上符号?
A：&
B：@
C：#
D：$
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux内核与模块

198. (1 分)
Hadoop的作者是？
A：Martin Fowler
B：Doug cutting
C：Kent Beck
D：Grace Hopper
我的答案:

正确答案: B
解析
[技能点:]
分布式文件系统 > 代表产品

199. (1 分)
下列说吧正确的是？
A：视图是观察数据的一种方式，只能基于基本表建立
B：视图是虚表，观察到的数据是实际表中的数据
C：索引查找法一定比表扫描查询快
D：索引的创建只跟表的存储有关
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > SQL

200. (1 分)
数据仓库的最终目的是？
A：建立数据仓库逻辑模型
B：开发数据仓库的应用分析
C：为用户和业务部门提供决策支持
D：收集业务需求
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式存储理论

201. (1 分)
个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助_为其顾客购物提供完全个性化的决策支持和信息服务?
A：电子商务网站
B：公司
C：各单位
D：跨国企业
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

多选题（共 75 题，共 150 分）
202. (2 分)
研究某企业职工的工资水平，“工资”对于各个职工而言是？
A：标志
B：数量标志
C：指标
D：数量指标
我的答案:

正确答案: AB
解析
[技能点:]
统计学基础 > 统计学基础

203. (2 分)
大数据的应用能够实现一场新的革命，提高综合管理水平的原因是
A：从柜台式管理走向全天候管理
B：从粗放化管理走向精细化管理
C：从被动反应走向主动预见型管理
D：从单兵作战走向联合共享型管理
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式存储理论

204. (2 分)
建立大数据需要设计一个什么样的大型系统
A：能够把应用放到合适的平台上
B：能够开发出相应应用
C：能够处理数据
D：能够存储数据
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式存储理论

205. (2 分)
以下各项均是针对数据仓库的不同说法,你认为正确的有?
A：数据仓库就是数据库
B：数据仓库是一切商业智能系统的基础
C：数据仓库是面向业务的,支持联机事务处理（OLTP）
D：数据仓库支持决策而非事务处理
我的答案:

正确答案: BCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

206. (2 分)
下列关于/etc/fstab文件描述，不正确的是？
A：fstab文件只能描述属于linux的文件系统
B：CD_ROM和软盘必须是自动加载的
C：fstab文件中描述的文件系统不能被卸载
D：启动时按fstab文件描述内容加载文件系统
我的答案:

正确答案: ABC
解析
[技能点:]
Linux操作系统 > Linux文件系统

207. (2 分)
噪声数据处理的方法主要有?
A：分箱
B：聚类
C：关联分析
D：回归
我的答案:

正确答案: ABD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

208. (2 分)
Hive几种排序的特点？
A：order by 全局排序
B：sort by 非全局排序
C：distribute by hash散列分区
D：cluster by
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

209. (2 分)
大数据可视化的工具有哪些？
A：Jupyter
B：Tableau
C：Google Chart
D：D3.js
我的答案:

正确答案: ABCD
解析
[技能点:]
数据可视化 > 工具

210. (2 分)
影响Kswapd核心线程的动态特性的有？
A：nr_async_pages
B：nr_async
C：free_pages_high
D：free_pages_low
我的答案:

正确答案: ACD
解析
[技能点:]
Linux操作系统 > Linux内核与模块

211. (2 分)
如何连接HiveServer2？
A：bin/hive
B：bin/hiveserver2
C：bin/beeline
D：.!connect jdbc:hive2://hadoop102:10000
我的答案:

正确答案: BCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

212. (2 分)
hive支持的文件格式有？
A：TextFile
B：text
C：SequenceFile
D：RCFile
我的答案:

正确答案: ACD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

213. (2 分)
以下哪些属于Hadoop可以运行的模式?
A：单机（本地）模式
B：伪分布式模式
C：分布式模式
D：互联模式
我的答案:

正确答案: ABC
解析
[技能点:]
分布式文件系统 > 数据管理

214. (2 分)
数据再利用的意义在于？
A：提高社会效益，优化社会管理
B：实现数据重组的创新价值
C：挖掘数据的潜在价值
D：优化存储设备，降低设备成本
我的答案:

正确答案: BC
解析
[技能点:]
分布式系统理论 > 分布式数据管理

215. (2 分)
下列属于hadoop生态圈的组件的有？
A：spark
B：hbase
C：flume
D：hive
我的答案:

正确答案: BCD
解析
[技能点:]
分布式文件系统 > 代表产品

216. (2 分)
下面哪种属于数据预处理的方法？
A：估计遗漏值
B：离散化
C：变量代换
D：聚集
我的答案:

正确答案: BCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

217. (2 分)
HBase性能优化包含下面的哪些选项？
A：读优化
B：写优化
C：配置优化
D：JVM优化
我的答案:

正确答案: ABCD
解析
[技能点:]
Hadoop > Hadoop常用组件

218. (2 分)
配置机架感知的下面哪项正确？
A：如果一个机架出问题，不会影响数据读写
B：写入数据的时候会写到不同机架的 NameNode 中
C：MapReduce会根据机架获取离自己比较近的网络数据
D：rackid信息可以通过topology.script.file.name配置
我的答案:

正确答案: ACD
解析
[技能点:]
分布式文件系统 > 数据管理

219. (2 分)
对大数据的管理和使用包括哪些方面
A：大数据的应用
B：大数据的运营
C：大数据的挖掘
D：大数据的存储
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

220. (2 分)
关于OLAP的特性,下面正确的是?
A：快速性
B：可分析性
C：多维性
D：共享性
我的答案:

正确答案: ABCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

221. (2 分)
下列属于不同的有序数据的有?
A：时序数据
B：序列数据
C：时间序列数据
D：事务数据
我的答案:

正确答案: ABCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

222. (2 分)
统计总体的特征表现为?
A：大量性
B：数量性
C：同质性
D：差异性
我的答案:

正确答案: ACD
解析
[技能点:]
统计学基础 > 统计学概述

223. (2 分)
下面属于视图的优点的是？
A：简化操作
B：提供安全保护功能
C：f分割数据，简化
D：可以随意操作数据
我的答案:

正确答案: ABC
解析
[技能点:]
数据分析与挖掘 > SQL

224. (2 分)
医疗领域如何利用大数据？
A：临床决策支持
B：社保资金安全
C：用户行为分析
D：个性化医疗
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

225. (2 分)
大数据的特点是？
A：多样性，复杂性
B：速度快
C：数据量大
D：基于高度分析的新价值
我的答案:

正确答案: ABCD
解析
[技能点:]
数据分析与挖掘 > 大数据

226. (2 分)
spark的有几种部署模式？
A：本地模式
B：standalone模式
C：spark on yarn模式
D：spark on mesos
我的答案:

正确答案: ABCD
解析
[技能点:]
实时计算 > Spark-streaming

227. (2 分)
大数据的发展趋势？
A：数据资源化，将成为最有价值的资产
B：大数据在更多的传统行业的企业管理落地
C：大数据和传统商业智能融合，行业定制化解决方案将涌现
D：数据将越来越开放，数据共享联盟将出现
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

228. (2 分)
流行分布式计算的框架主要有几种？
A：hadoop
B：spark
C：storm
D：zookeeper
我的答案:

正确答案: ABC
解析
[技能点:]
分布式系统理论 > 分布式数据管理

229. (2 分)
数据挖掘的预测建模任务主要包括哪几大类问题?
A：分类
B：回归
C：聚类
D：关联规则挖掘
我的答案:

正确答案: AB
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

230. (2 分)
Mapreduce的执行过程?
A：input/map/partition/sort/spill
B：mapper端merge
C：reducer端merge
D：reduce/output
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

231. (2 分)
Hadoop的核心配置是什么？
A：hadoop-default.xml
B：core-site.xml
C：hdfs-site.xml
D：以上均不是
我的答案:

正确答案: AB
解析
[技能点:]
分布式文件系统 > 代表产品

232. (2 分)
大数据作为一种数据集合，当我们使用这个概念的时候，实际包含有哪几层含义
A：数据很大
B：构成复杂
C：变化很快
D：蕴含大价值
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

233. (2 分)
以下说法正确的有哪些？
A：大数据仅仅是讲数据的体量大
B：大数据会带来机器智能
C：大数据对传统行业有帮助
D：大数据是一种思维方式
我的答案:

正确答案: BCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

234. (2 分)
有关数据仓库的开发特点,正确的描述是?
A：数据仓库开发要从数据出发
B：数据仓库使用的需求在开发出去就要明确
C：数据仓库的开发是一个不断循环的过程,是启发式的开发
D：在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
我的答案:

正确答案: BCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

235. (2 分)
信息时代的三大定律指的是？
A：摩尔定律
B：吉尔德定律
C：麦特卡尔夫定律
D：牛顿定律
我的答案:

正确答案: ABC
解析
[技能点:]
分布式系统理论 > 分布式数据管理

236. (2 分)
文本挖掘的工具有?
A：SPP Text Mining
B：IBM DB2 intelligent Miner
C：SAS Text Miner
D：SPSS Text Mining
我的答案:

正确答案: BCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

237. (2 分)
Linux系统有几种类型文件？
A：普通文件
B：特殊文件
C：目录文件
D：设备文件
我的答案:

正确答案: ACD
解析
[技能点:]
Linux操作系统 > Linux概念与结构

238. (2 分)
当前，大数据产业发展的特点是
A：规模较大
B：规模较小
C：增速很快
D：多产业交叉融合
我的答案:

正确答案: ACD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

239. (2 分)
大数据可视化的主要应用？
A：报表
B：BI分析工具
C：大数据魔镜
D：BDP商业数据平台
我的答案:

正确答案: ABCD
解析
[技能点:]
数据可视化 > 开发

240. (2 分)
Rowkey设计的原则，下列哪些选项的描述是正确的？
A：尽量保证越短越好
B：可以使用汉字
C：可以使用字符串
D：本身是无序的
我的答案:

正确答案: ABC
解析
[技能点:]
分布式文件系统 > 代表产品

241. (2 分)
下列算法中，属于外推法的是？
A：移动平均法
B：回归分析法
C：指数平滑法
D：季节指数法
我的答案:

正确答案: ACD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

242. (2 分)
下列属于linux的特点的有？
A：一切都是文件
B：开放性
C：多任务
D：设备独立性
我的答案:

正确答案: ABCD
解析
[技能点:]
Linux操作系统 > Linux概念与结构

243. (2 分)
大数据在如今爆发的原因有哪些？
A：互联网的收集和积累
B：各种传感器无时无刻不在为我们提供大量的数据
C：各种智能设备无时无刻不在为我们提供大量的数据
D：各种监控设备无时无刻不在为我们提供大量的数据
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

244. (2 分)
分布式存储系统是大量普通PC服务器通过Internet互联，特点是
A：可扩展
B：低成本
C：高性能
D：易用
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

245. (2 分)
spark有哪些组件？
A：master
B：datanode
C：Driver
D：worker
我的答案:

正确答案: ACD
解析
[技能点:]
实时计算 > Spark-streaming

246. (2 分)
大数据的应用主要在哪里？
A：预测
B：推荐
C：商业情报分析
D：科学研究
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

247. (2 分)
下列分组中属于按数量标志分组的有？
A：企业按计划完成程度分组
B：职工按工龄分组
C：企业按隶属关系分组
D：企业按年产量分组
我的答案:

正确答案: ABD
解析
[技能点:]
统计学基础 > 统计学基础

248. (2 分)
大数据处理流程可以概括为以下哪几步？
A：挖掘
B：采集
C：统计和分析
D：导入和预处理
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式存储理论

249. (2 分)
以下属于聚类算法的是？
A：K-Means
B：DBSCAN
C：Apriori
D：KNN
我的答案:

正确答案: AB
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

250. (2 分)
联机分析处理的基本分析功能？
A：聚类
B：切片
C：转轴
D：切块
我的答案:

正确答案: BCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

251. (2 分)
全球信息化发展六大趋势包括？
A：全球信息化发展向智慧化阶段迈进
B：全球进入移动互联网全面爆发时期
C：信息技术对促进创新的作用日益凸显
D：全球制造业互联网化进程加速
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

252. (2 分)
Kafka相对传统技术有什么优势?
A：快速
B：可伸缩
C：持久
D：设计
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

253. (2 分)
Spark为什么比mapreduce快？
A：基于内存计算，减少低效的磁盘交互
B：高效的调度算法，基于DAG
C：内核多
D：容错机制Linage，精华部分就是DAG和Lingae
我的答案:

正确答案: ABD
解析
[技能点:]
实时计算 > Spark-streaming

254. (2 分)
storm的应用场景有哪些？
A：信息流处理
B：连续计算
C：离线数据分析
D：分布式远程调用
我的答案:

正确答案: ACD
解析
[技能点:]
实时计算 > Storm

255. (2 分)
大数据的来源包括？
A：互联网数据
B：实时数据
C：探测数据
D：传感器数据
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

256. (2 分)
hive的启动方式有哪些？
A：bin/hive
B：bin/hiveserver2
C：web
D：脚本
我的答案:

正确答案: AB
解析
[技能点:]
分布式系统理论 > 分布式数据管理

257. (2 分)
关于大数据的内涵，以下理解正确的是
A：大数据还是一种思维方式和新的管理、治理路径
B：大数据里面蕴藏着大知识、大智慧、大价值和大发展
C：大数据在不同领域，又有不同的状况
D：大数据就是很大的数据
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

258. (2 分)
数据预处理方法主要有?
A：数据清洗
B：数据集成
C：数据变换
D：数据归约
我的答案:

正确答案: ABCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

259. (2 分)
下列哪项可以作为集群的管理工具
A：Puppet
B：Pdsh
C：Cloudera Manager
D：Rsync + ssh + scp
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

260. (2 分)
Cloudera 提供哪几种安装 CDH 的方法?
A：Cloudera manager
B：Yum
C：Rpm
D：Tarball
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

261. (2 分)
下列是Linux系统进程类型的是?
A：交互进程
B：批处理进程
C：守护进程
D：就绪进程
我的答案:

正确答案: ABC
解析
[技能点:]
Linux操作系统 > Linux概念与结构

262. (2 分)
你对container的理解正确的是？
A：Container作为资源分配和调度的基本单位，其中封装了的资源如内存，CPU，磁盘，网络带宽等
B：Container由ApplicationMaster向ResourceManager申请的，由ResouceManager中的资源调度器异步分配给ApplicationMaster
C：Container的运行是由ApplicationMaster向资源所在的NodeManager发起的，Container运行时需提供内部执行的任务命令
D：MapReduce计算中都会用到它
我的答案:

正确答案: ABC
解析
[技能点:]
分布式系统理论 > 分布式数据管理

263. (2 分)
信息社会经历的发展阶段包括？
A：大数据时代
B：计算机时代
C：互联网时代
D：云计算时代
我的答案:

正确答案: ABC
解析
[技能点:]
分布式系统理论 > 分布式数据管理

264. (2 分)
Flume工作机制是什么？
A：agent
B：source
C：channel
D：sink
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

265. (2 分)
某企业2000年总产值为50万元，2003年为100万元，则2003年的总产值比2000年?
A：增长了50万元
B：增长了100%
C：增长了50%
D：翻了一番
我的答案:

正确答案: ABD
解析
[技能点:]
统计学基础 > 统计学基础

266. (2 分)
下列关于脏数据的说法中，正确的是?
A：数据不完整
B：编码不统一
C：格式不规范
D：意义不明确
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

267. (2 分)
下列标志中属于品质标志的有?
A：人口性别
B：工资级别
C：考试分数
D：商品的使用寿命
我的答案:

正确答案: AB
解析
[技能点:]
统计学基础 > 统计学概述

268. (2 分)
FTP传输中使用哪两个端口?
A：20
B：21
C：22
D：23
我的答案:

正确答案: AB
解析
[技能点:]
Linux操作系统 > Linux文件系统

269. (2 分)
Web内容挖掘实现技术?
A：文本总结
B：文本分类
C：文本聚类
D：关联规则
我的答案:

正确答案: ABCD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

270. (2 分)
下列专门用于可视化时间空间数据的技术有？
A：等高线图
B：饼图
C：曲面图
D：矢量场图
我的答案:

正确答案: ACD
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

271. (2 分)
下列标志中属于数量标志的有？
A：性别
B：出勤人数
C：产品等级
D：产品产量
我的答案:

正确答案: BD
解析
[技能点:]
统计学基础 > 统计学概述

272. (2 分)
shell的变量类型有哪些种？
A：用户自定义变量
B：环境变量
C：位置变量
D：特殊变量
我的答案:

正确答案: ABCD
解析
[技能点:]
Linux操作系统 > Linux文件系统

273. (2 分)
Hive数据倾斜问题的原因是？
A：key分布不均匀
B：业务数据本身的特性
C：SQL语句造成数据倾斜
D：数据量大
我的答案:

正确答案: ABC
解析
[技能点:]
分布式系统理论 > 分布式数据管理

274. (2 分)
下面属于数据集的一般特性的有?
A：连续性
B：维度
C：稀疏性
D：相异性
我的答案:

正确答案: BC
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

275. (2 分)
下面哪些选项正确描述了HBase的特性？
A：高可靠性
B：高性能
C：面向列
D：可伸缩
我的答案:

正确答案: ABCD
解析
[技能点:]
分布式系统理论 > 分布式数据管理

276. (2 分)
在System V进程通讯方式中，ipc_perm结构描述对一个系统IPC对象的存取权限，而用于定位IPC对象的引用标志符key可以依据键值分成什么类型？
A：公有
B：私有
C：平均
D：显示
我的答案:

正确答案: AB
解析
[技能点:]
Linux操作系统 > Linux概念与结构

简答题（共 24 题，共 240 分）
277. (10 分)
用lambda函数实现两个数相乘(用Python实现)
我的答案: (+ 0 分)
[正确答案]
sum=lambda a,b:a*b
解析
[技能点:]
Python开发 > Python基础

278. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
家庭地址,
联系电话
);
修改该学生表的结构，添加一列信息，学历
我的答案: (+ 0 分)
[正确答案]
Alter table stu add 学历 varchar(6);
解析
[技能点:]
SQL > SQL基础

279. (10 分)
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],求出列表所有奇数并构造新列表 (用Python实现)
我的答案: (+ 0 分)
[正确答案]
a = [1,2,3,4,5,6,7,8,9,10]
def fn(a):
return a%2==1

newlist = filter(fn,a)
newlist = [i for i in newlist]
print(newlist)
解析
[技能点:]
Python开发 > Python基础

280. (10 分)
创建一张学生表，包含以下信息，学号，姓名，年龄，性别，家庭住址，联系电话
我的答案: (+ 0 分)
[正确答案]
Create table stu (学号 int ,
姓名 varchar(8),
年龄 int,
性别 varchar(4),
家庭地址 varchar(50),
联系电话 int
);
解析
[技能点:]
SQL > SQL基础

281. (10 分)
将一个列表的数据复制到另一个列表中。 (用Python实现)
我的答案: (+ 0 分)
[正确答案]
!/usr/bin/python
-*- coding: UTF-8 -*-

a = [1, 2, 3]
b = a[:]
print b
解析
[技能点:]
Python开发 > Python基础

282. (10 分)
学生表如下:
自动编号学号姓名课程编号课程名称分数
1 2005001 张三 0001 数学 69
2 2005002 李四 0001 数学 89
3 2005001 张三 0001 数学 69
删除除了自动编号不同, 其他都相同的学生冗余信息
我的答案: (+ 0 分)
[正确答案]
delete tablename where 自动编号 not in(select min( 自动编号) from tablename group by 学号, 姓名, 课程编号, 课程名称, 分数)
解析
[技能点:]
SQL > SQL基础

283. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
家庭地址,
联系电话
);
查询出所有学生的姓名，性别，年龄降序排列
我的答案: (+ 0 分)
[正确答案]
Select 姓名,性别 from stu order by 年龄 desc
解析
[技能点:]
SQL > SQL基础

284. (10 分)
用一条SQL 语句查询出每门课都大于80 分的学生姓名

name kecheng fenshu
张三语文 81
张三数学 75
李四语文 76
李四数学 90
王五语文 81
王五数学 100
王五英语 90
我的答案: (+ 0 分)
[正确答案]
select name from table group by name having min(fenshu)>80
解析
[技能点:]
SQL > SQL基础

285. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
家庭地址,
联系电话
);
删除学生表的数据，姓名以C开头，性别为‘男’的记录删除
我的答案: (+ 0 分)
[正确答案]
Delect from stu where 性别=’男’ and 姓名 like ‘c%’
解析
[技能点:]
SQL > SQL基础

286. (10 分)
列表[1,2,3,4,5],请使用map()函数输出[1,4,9,16,25]，并使用列表推导式提取出大于10的数，最终输出[16,25] (用Python实现)
我的答案: (+ 0 分)
[正确答案]
list =[1,2,3,4,5]
def fn(x):
return x**2

res=map(fn,list)
res = [i for i in res if i>10]
print res
解析
[技能点:]
Python开发 > Python基础

287. (10 分)
s = "ajldjlajfdljfddd"，去重并从小到大排序输出"adfjl" (用Python实现)
我的答案: (+ 0 分)
[正确答案]
s = "ajldjlajfdljfddd"
s = set(s)
s=list(s)

s.sort(reverse=False);
res = "".join(s)
print(res)
解析
[技能点:]
Python开发 > Python基础

288. (10 分)
a=[1, 2, 3, 4, 5]，一行代码实现对列表a中的偶数位置的元素进行加3后求和 (用Python实现)
我的答案: (+ 0 分)
[正确答案]
sums = sum(map(lambda x: x + 3, a[1::2]))
解析
[技能点:]
Python开发 > Python基础

289. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
联系电话,
学历
);
向学生表添加如下信息：

学号姓名年龄性别联系电话学历

1A22男123456小学

2B21男119中学
我的答案: (+ 0 分)
[正确答案]
Insert into stu values(1,’A’,22,’男’,123456,’小学’)

Insert into stu values(2,’B’,21,’男’,119,’中学’)
解析
[技能点:]
SQL > SQL基础

290. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
家庭地址,
联系电话
);
修改学生表的结构，删除一列信息，家庭住址
我的答案: (+ 0 分)
[正确答案]
Alter table stu drop column 家庭地址
解析
[技能点:]
SQL > SQL基础

291. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
家庭地址,
联系电话,
学历
);
查询学生表的数据，将所有年龄小于22岁的，学历为“大专”的，学生的姓名和学号示出来
我的答案: (+ 0 分)
[正确答案]
Select 姓名,学号 from stu where 年龄<22 and 学历=’大专’
解析
[技能点:]
SQL > SQL基础

292. (10 分)
python中生成随机整数、随机小数、0--1之间小数方法 (用Python实现)
我的答案: (+ 0 分)
[正确答案]
import random
import numpy as np

result = random.randint(10,20)
res =np.random.randn(5)
ret =random.random()

print("正整数",result)
print("5个随机小数",res)
print("0-1随机小数",ret)
解析
[技能点:]
Python开发 > Python基础

293. (10 分)
List = [-2, 1, 3, -6]，如何实现以绝对值大小从小到大将 List 中内容排序 (用Python实现)
我的答案: (+ 0 分)
[正确答案]
sorted(list1,key = abs)
解析
[技能点:]
Python开发 > Python基础

294. (10 分)
一行代码实现1--100之和(用Python实现)
我的答案: (+ 0 分)
[正确答案]
sum(range(0,101))
解析
[技能点:]
Python开发 > Python基础

295. (10 分)
有一篇英文文章保存在 a.txt 中，请用python实现统计这篇文章内每个单词的出现频率 (用Python实现)
我的答案: (+ 0 分)
[正确答案]
from collections import Counter
c = Counter()
with open('a.txt','r',encoding='utf-8') as f:
for line in f.readlines():
words = line.split()
c1 = Counter(words)
c.update(c1)
解析
[技能点:]
Python开发 > Python基础

296. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
家庭地址,
联系电话,
学历
);
修改学生表的数据，将电话号码以11开头的学员的学历改为“大专”
我的答案: (+ 0 分)
[正确答案]
Update stu set 学历=’大专’ where 联系电话 like ‘11%’
解析
[技能点:]
SQL > SQL基础

297. (10 分)
有一张学生信息表结构如下：
table stu (
学号,
姓名,
年龄,
性别,
家庭地址,
联系电话
);
按照性别分组查询所有的平均年龄
我的答案: (+ 0 分)
[正确答案]
Select 性别，avg(年龄) from stu group by 性别
解析
[技能点:]
SQL > SQL基础

298. (10 分)
暂停一秒输出，并格式化当前时间 (用Python实现)
我的答案: (+ 0 分)
[正确答案]
import time

print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))

暂停一秒
time.sleep(1)

print time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))
解析
[技能点:]
Python开发 > Python基础

299. (10 分)
表的转换，
year month amount
1991 1 1.1
1991 2 1.2
1991 3 1.3
1991 4 1.4
1992 1 2.1
1992 2 2.2
1992 3 2.3
1992 4 2.4
查成这样一个结果
year m1 m2 m3 m4
1991 1.1 1.2 1.3 1.4
1992 2.1 2.2 2.3 2.4
我的答案: (+ 0 分)
[正确答案]
select year,
(select amount from aaa m where month=1 and m.year=aaa.year) as m1,
(select amount from aaa m where month=2 and m.year=aaa.year) as m2,
(select amount from aaa m where month=3 and m.year=aaa.year) as m3,
(select amount from aaa m where month=4 and m.year=aaa.year) as m4
from aaa group by year
解析
[技能点:]
SQL > SQL基础

300. (10 分)
古典问题：有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子，假如兔子都不死，问每个月的兔子总数为多少？ (用Python实现)
我的答案: (+ 0 分)
[正确答案]
f1 = 1
f2 = 1
for i in range(1,22):
print '%12ld %12ld' % (f1,f2),
if (i % 3) == 0:
print ''
f1 = f1 + f2
f2 = f1 + f2
解析
[技能点:]
Python开发 > Python基础

哎一入江湖岁月催

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大数据练习题

单选题（共 201 题，共 201 分）1. (1 分)在Linux中，进程优先级的相关参数有多个，与实时进程优先级相关的参数是？A：policyB：counterC：priorityD：rt_priority我的答案: 正确答案: D解析[技能点:]Linux操作系统 > Linux内核与模块2. (1 分)下列哪个程序通常与 NameNode 在一个节点启动?A：SecondaryNameNodeB：DataNodeC：TaskTrackerD：...
复制链接

扫一扫