习题答案:
第一章:
1. 简述大数据的概念。
答:自2012年以来,“大数据”一词越来越引起人们的关注。但是,目前为止,在学术研究领域和产业界中,大数据并没有一个标准的定义。在维克托·迈尔-舍恩伯格编写的《大数据时代》一书中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。而麦肯锡全球研究所则定义大数据为一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。通常来说,大数据是指数据量超过一定大小,无法用常规的软件在规定的时间范围内进行抓取、管理和处理的数据集合。
2. 简述大数据的基本特征。
答:
大数据的主要特征可用“5V+1C”来进行概括,分别是:数据量大(Volume)、数据类型多(Variety)、数据时效性强(Velocity)、价值密度低(Value)、准确性高(Veracity)、复杂性高(Complexity),如下图所示。
图 大数据特征图
3.简述大数据的分析处理过程。
答:
大数据的处理流程基本可划分为数据采集、数据处理与集成、数据分析和数据解释4个阶段。即经数据源获取的数据,因为其数据结构不同(包括结构、半结构和非结构数据),用特殊方法进行数据处理和集成,将其转变为统一标准的数据格式方便以后对其进行处理;然后用合适的数据分析方法将这些数据进行处理分析,并将分析的结果利用可视化等技术展现给用户,这就是整个大数据处理的流程如下图所示。
图 大数据的处理流程
详细的分析处理过程参见《大数据技术与应用》第5章第2节
4. 简述大数据的存储方式。
答:
存储系统作为数据中心最核心的数据基础,不再仅是传统分散的、单一的底层设备。除了要具备高性能、高安全、高可靠等基于大数据应用需求,“应用定义存储”概念被提出。主要有以下几种存储方式:
1、分布式系统
2、NoSQL数据库
3、云数据库
4、大数据存储技术路线
1) 采用MPP架构的新型数据库集群
2) 基于Hadoop的技术扩展和封装
3) 大数据一体机
5.简述大数据的商业价值和社会价值。
答:
商业价值:
1.对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。
2. 运用大数据模拟实境,发掘新的需求和提高利润。
3. 提高大数据成果在各相关部门的分享程度,提高企业决策能力。
4. 进行商业模式、产品和服务的创新。
社会价值:
1.大数据可以为个人提供个性化的医疗服务。
2.大数据可以提供个性化教育。在大数据的支持下,教育将呈现另外 的特征:弹性学制、个性化辅导、社区和家庭学习。
3.大数据的诞生让社会安全管理更为井然有序。
4.大数据的发展带动了社会上各行各业的发展。
6.以某一行业为例,简述大数据的应用。
答:参见《大数据技术与应用》 第1章第4节
第二章:
1.简述大数据集群系统。
答:集群技术是指通过高速通信网络将一组相互独立的计算机联系在一起,组成一个计算机系统,该系统中每一台计算机都是一个独立的服务器,运行各自的进程,它们相互之间可以通信,既可以看作是一个个单一的系统,也能够协同起来为用户提供服务。对网络用户来讲,后端就像是一个单一的系统,协同向用户提供系统资源、系统服务,通过网络连接组合成一个组合来共同完一个任务。Hadoop 分布式集群是为了对海量的非结构化数据进行存储和分析而设计的一种特定的集群。其本质上是一种计算集群。
详见《大数据技术与应用》第2章第1节
2.简述集群系统的分类。
答:集群分为同构与异构两种。而按功能和结构可以分成以下几类。
(1)高可用性集群。
(2)负载均衡集群。
(3)高性能计算集群。
(4)网格计算。
3.简述Linux操作系统的特性。
答:
Linux操作系统是一个多用户,多任务,丰富的网络功能,它不仅有可靠的系统安全,而且良好的可移植性,具有标准的兼容性,良好的用户界面,出色的速度性能,最为重要的是开源,CentOS主要有以下特点:
(1)主流:目前的Linux操作系统主要应用于生产环境,企业级主流Linux系统仍旧是RedHat或者CentOS。
(2)免费:RedHat 和CentOS差别不大,基于Red Hat Linux 提供的可自由使用源代码的企业CentOS是一个Linux发行版本。
(3)更新方便:CentOS独有的yum命令支持在线升级,可以即时更新系统,不像RedHat 那样需要花钱购买支持服务。
4.简述计算机虚拟化技术以及常见的虚拟化软件。
答:在计算机中,虚拟化(Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可分割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部分是不受现有资源的架设方式,地域或物理组态所限制。一般所指的虚拟化资源包括计算能力和资料存储。
常见的虚拟化软件有VirtualBox、VMware Workstation、KVM。
5.简述大数据集群技术的架构。
答:一般来说,大数据集群的构架,主要分为硬件资源层、OS 层、基础设施管理层、文件系统层、大数据集群层和大数据应用层,如下图所示。
图 大数据集群的架构
详见《大数据技术与应用》第2章第5节
6.安装Linux系统并进行网络配置。
答:Linux安装环境:CentOS 7.3, 官网http://www.centos.org/
为了简化操作,使用三台服务器作为集群节点,其中一台为Master节点,两台为Slave节点。规划集群节点IP。
对集群节点进行网络配置:
(1)设置主机名
(2)修改/etc/hosts文件
(3)修改网络配置
(4)重启网络,并查看网络IP地址
(5)关闭并停止NetworkManager服务
详见《大数据技术与应用》第2章第6节
7.部署Linux集群、设置时间同步以及免密钥SSH配置。
答:一、集群规划
二、网络配置
(1)设置主机名
(2)修改/etc/hosts文件
(3)修改网络配置
(4)重启网络,并查看网络IP地址
(5)关闭并停止Network Manager