湖南科技大学 大数据技术原理与应用 林子雨

第一章

1.试述信息技术发展史上的3次信息化浪潮及具体内容。

  

信息化浪潮

发生时间

标志

解决问题

代表公司

第一次浪潮

1980年前后

个人计算机

信息处理

Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等

第二次浪潮

1995年前后

互联网

信息传输

雅虎、谷歌、阿里巴巴、百度、腾讯等

第三次浪潮

2010年前后

物理网、云计算和大数据

信息爆炸

将涌现出一批新的市场标杆企业

  1. 试述数据产生方式经历的几个阶段

答: 运营式系统阶段,用户原创内容阶段,感知式系统阶段。

  1. 试述大数据的4个基本特征

答:数据量大、数据类型繁多、处理速度快和价值密度低。

  1. 试述大数据时代的“数据爆炸”的特性

答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。

  1. 数据研究经历了哪4个阶段?

答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

  1. 试述大数据对思维方式的重要影响

答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。

  1. 大数据决策与传统的基于数据仓库的决策有什么区别

答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

  1. 举例说明大数据的基本应用

答:

领域

大数据的应用

金融行业

大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。

汽车行业

利用大数据和物联网技术的五人驾驶汽车,在不远的未来将走进我们的日常生活

互联网行业

借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放

个人生活

大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周全的个性化服务。

  1. 举例说明大数据的关键技术

答:批处理计算,流计算,图计算,查询分析计算

  1. 大数据产业包含哪些关键技术。

答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

  1. 定义并解释以下术语:云计算、物联网

答: 云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

     物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

  1. 详细阐述大数据、云计算和物联网三者之间的区别与联系。

大数据、云计算和物联网的区别

大数据、云计算和物联网的联系

大数据侧重于海量数据的存储、处理与分析,海量数据中发现价值,服务于生产和生活;云计算本质上皆在整合和优化各种IT资源并通过网络已服务的方法,廉价地提供给用户;物联网的发展目标是实现呜呜向量,应用创新是物联网的核心

从整体来看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。

第二章

  1. 试述hadoop和谷歌的mapreduce、gfs等技术之间的关系

答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

  1. 试述Hadoop具有哪些特性。

答:高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux平台,支持多种编程语言

  1. 试述Hadoop在各个领域的应用情况。

答:2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadooop集群系统;

Facebook主要将Hadoop平台用于日志处理,推荐系统和数据仓库等方面;

百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。

  1. 试述Hadoop的项目结构以及每个部分的具体功能。

答:

Pig

Chukwa

Hive

HBase

MapReduce

HDFS

Zookeeper

Common

Avro

Commeon是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC和串行化库

Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。

HDFS是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。

HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。

MapReduce是针对谷歌MapReduce的开源实现,用于大规模数据集的并行运算。

Zoookepper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。

Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。

Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。

Sqoop可以改进数据的互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。

Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种 MapReduce操作。

  1. 试列举单机模式和伪分布模式的异同点

单机模式和伪分布模式是 Hadoop 的两种常见运行模式,它们在功能和配置上有一些异同点。

单机模式(Standalone Mode):

1. 单机模式是 Hadoop 的默认运行模式,适用于在单个节点上进行开发、测试和调试。

2. 在单机模式下,Hadoop 的各个组件(如HDFS和MapReduce)都在同一个进程中运行。

3. HDFS 不会以分布式方式运行,而是将文件存储在本地文件系统。

4. MapReduce 作业将在本地运行,不涉及数据的分片和分布式计算。

5. 单机模式不需要特殊的配置,适合于简单的数据处理和开发测试。

伪分布模式(Pseudo-Distributed Mode):

1. 伪分布模式是一种模拟分布式环境的运行模式,可以在单个节点上模拟 Hadoop 的分布式特性。

2. 在伪分布模式下,Hadoop 的各个组件(如HDFS和MapReduce)以分布式的方式运行,但都在同一台机器上。

3. HDFS 以分布式方式运行,文件被分块存储,并模拟数据的复制和分布。

4. MapReduce 作业在单个节点上以分布式方式运行,使用模拟的多个 Map 和 Reduce 任务。

5. 伪分布模式需要对 Hadoop 的配置文件进行适当的修改,以模拟分布式环境。

异同点总结:

1. 单机模式适用于开发、测试和调试,而伪分布模式用于模拟分布式环境。

2. 单机模式下的各个组件在同一进程中运行,而伪分布模式模拟了分布式运行环境。

3. 单机模式不涉及分布式文件系统和计算,而伪分布模式模拟了分布式文件系统和分布式计算。

4. 单机模式不需要特殊配置,而伪分布模式需要修改配置文件来模拟分布式环境。

需要注意的是,以上是针对传统的单机模式和伪分布模式的描述,随着 Hadoop 的发展,现在也有更高级的运行模式,如完全分布式模式(Fully Distributed Mode),它可以在多台机器上实现真正的分布式计算和存储。

  1. Hadoop伪分布式运行启动后所具有的进程都有哪些?

在 Hadoop 伪分布式模式下,启动后会涉及以下进程:

1. NameNode(名称节点):负责管理 HDFS 中的文件系统命名空间,维护文件系统元数据信息。

2. DataNode(数据节点):存储和管理实际的数据块,并向 NameNode 提供数据块的信息。

3. SecondaryNameNode(辅助名称节点):定期合并编辑日志并创建检查点,以减少 NameNode 的恢复时间。

4. ResourceManager(资源管理器):协调和管理集群中的资源,调度和分配任务给不同的 NodeManager。

5. NodeManager(节点管理器):在各个数据节点上运行,负责启动和监控容器,管理计算资源。

6. JobHistoryServer(作业历史服务器):收集和展示已完成作业的信息和日志。

以上是 Hadoop 伪分布式模式下的核心进程。除了上述进程外,还可能涉及其他辅助进程和服务,如:

- DFSZKFailoverController:在高可用性环境中运行,负责监控 NameNode 的状态并处理故障切换。

- Hadoop Metrics2 系统:用于收集和展示集群的度量信息。

- Hadoop DFSAdmin、Hadoop fs、Hadoop YARN CLI 等命令行工具。

请注意,进程的具体名称和运行方式可能会因 Hadoop 版本和配置而有所不同。确保参考你正在使用的 Hadoop 版本的文档,以获取准确的进程列表和详细信息。

9.如果具备集群实验条件,请尝试按照Hadoop官方文档搭建全分布式的Hadoop集群环境

很抱歉,作为一个文本模型,我无法直接执行操作或访问外部资源。因此,我无法按照实际的硬件条件和网络环境为你建立完全分布式的 Hadoop 集群。

但是,你可以按照以下步骤尝试按照 Hadoop 官方文档搭建全分布式的 Hadoop 集群环境:

1. 配置硬件和网络:准备一组物理或虚拟机器,确保它们之间可以相互通信,具有足够的计算和存储资源,并且满足 Hadoop 的最低要求。

2. 安装和配置操作系统:在每台机器上安装适用于 Hadoop 的操作系统,如 Linux(例如 CentOS、Ubuntu 等)。确保所有机器具有相同的操作系统版本和配置。

3. 下载和解压 Hadoop:从 Hadoop 官方网站下载所需版本的 Hadoop,将其解压到每台机器上的相同目录中。确保 Hadoop 的路径在每个节点上保持一致。

4. 配置 Hadoop:根据 Hadoop 官方文档的指导,

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值