湖南科技大学大数据技术原理与应用林子雨

最新推荐文章于 2024-07-25 09:48:00 发布

鑫垚淼森焱

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量1k

点赞数 3

文章标签：大数据

本文链接：https://blog.csdn.net/qq_64575797/article/details/131206789

版权

第一章

1.试述信息技术发展史上的3次信息化浪潮及具体内容。

信息化浪潮	发生时间	标志	解决问题	代表公司
第一次浪潮	1980年前后	个人计算机	信息处理	Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮	1995年前后	互联网	信息传输	雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮	2010年前后	物理网、云计算和大数据	信息爆炸	将涌现出一批新的市场标杆企业

试述数据产生方式经历的几个阶段

答：运营式系统阶段，用户原创内容阶段，感知式系统阶段。

试述大数据的4个基本特征

答：数据量大、数据类型繁多、处理速度快和价值密度低。

试述大数据时代的“数据爆炸”的特性

答：大数据时代的“数据爆炸”的特性是，人类社会产生的数据一致都以每年50%的速度增长，也就是说，每两年增加一倍。

数据研究经历了哪4个阶段？

答：人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。

试述大数据对思维方式的重要影响

答：大数据时代对思维方式的重要影响是三种思维的转变：全样而非抽样，效率而非精确，相关而非因果。

大数据决策与传统的基于数据仓库的决策有什么区别

答：数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力，能结合历史数据和实时数据实现查询分析和自动规则触发，从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

举例说明大数据的基本应用

答：

领域	大数据的应用
金融行业	大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。
汽车行业	利用大数据和物联网技术的五人驾驶汽车，在不远的未来将走进我们的日常生活
互联网行业	借助于大数据技术，可以分析客户行为，进行商品推荐和有针对性广告投放
个人生活	大数据还可以应用于个人生活，利用与每个人相关联的“个人大数据”，分析个人生活行为习惯，为其提供更加周全的个性化服务。

举例说明大数据的关键技术

答：批处理计算，流计算，图计算，查询分析计算

大数据产业包含哪些关键技术。

答：IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

定义并解释以下术语：云计算、物联网

答：云计算：云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。

物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起，形成人与物、物与物相连，实现信息化和远程管理控制。

详细阐述大数据、云计算和物联网三者之间的区别与联系。

大数据、云计算和物联网的区别

大数据、云计算和物联网的联系

大数据侧重于海量数据的存储、处理与分析，海量数据中发现价值，服务于生产和生活；云计算本质上皆在整合和优化各种IT资源并通过网络已服务的方法，廉价地提供给用户；物联网的发展目标是实现呜呜向量，应用创新是物联网的核心

从整体来看，大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式存储和管理系统提供了海量数据的存储和管理能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据，构成了大数据的重要数据来源，物联网需要借助于云计算和大数据技术，实现物联网大数据的存储、分析和处理。

第二章

试述hadoop和谷歌的mapreduce、gfs等技术之间的关系

答：Hadoop的核心是分布式文件系统HDFS和MapReduce，HDFS是谷歌文件系统GFS的开源实现，MapReduces是针对谷歌MapReduce的开源实现。

试述Hadoop具有哪些特性。

答：高可靠性，高效性，高可扩展性，高容错性，成本低，运行在Linux平台，支持多种编程语言

试述Hadoop在各个领域的应用情况。

答：2007年，雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadooop集群系统；

Facebook主要将Hadoop平台用于日志处理，推荐系统和数据仓库等方面；

百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。

试述Hadoop的项目结构以及每个部分的具体功能。

答：

Pig	Chukwa		Hive		HBase
MapReduce		HDFS		Zookeeper
Common			Avro

Commeon是为Hadoop其他子项目提供支持的常用工具，主要包括文件系统、RPC和串行化库

Avro是为Hadoop的子项目，用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。

HDFS是Hadoop项目的两个核心之一，它是针对谷歌文件系统的开源实现。

HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用HDFS作为其底层数据存储。

MapReduce是针对谷歌MapReduce的开源实现，用于大规模数据集的并行运算。

Zoookepper是针对谷歌Chubby的一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。

Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。

Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。

Sqoop可以改进数据的互操作性，主要用来在H大哦哦哦配合关系数据库之间交换数据。

Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保存在HDFS中供Hadoop进行各种 MapReduce操作。

试列举单机模式和伪分布模式的异同点

单机模式和伪分布模式是 Hadoop 的两种常见运行模式，它们在功能和配置上有一些异同点。

单机模式（Standalone Mode）：

1. 单机模式是 Hadoop 的默认运行模式，适用于在单个节点上进行开发、测试和调试。

2. 在单机模式下，Hadoop 的各个组件（如HDFS和MapReduce）都在同一个进程中运行。

3. HDFS 不会以分布式方式运行，而是将文件存储在本地文件系统。

4. MapReduce 作业将在本地运行，不涉及数据的分片和分布式计算。

5. 单机模式不需要特殊的配置，适合于简单的数据处理和开发测试。

伪分布模式（Pseudo-Distributed Mode）：

1. 伪分布模式是一种模拟分布式环境的运行模式，可以在单个节点上模拟 Hadoop 的分布式特性。

2. 在伪分布模式下，Hadoop 的各个组件（如HDFS和MapReduce）以分布式的方式运行，但都在同一台机器上。

3. HDFS 以分布式方式运行，文件被分块存储，并模拟数据的复制和分布。

4. MapReduce 作业在单个节点上以分布式方式运行，使用模拟的多个 Map 和 Reduce 任务。

5. 伪分布模式需要对 Hadoop 的配置文件进行适当的修改，以模拟分布式环境。

异同点总结：

1. 单机模式适用于开发、测试和调试，而伪分布模式用于模拟分布式环境。

2. 单机模式下的各个组件在同一进程中运行，而伪分布模式模拟了分布式运行环境。

3. 单机模式不涉及分布式文件系统和计算，而伪分布模式模拟了分布式文件系统和分布式计算。

4. 单机模式不需要特殊配置，而伪分布模式需要修改配置文件来模拟分布式环境。

需要注意的是，以上是针对传统的单机模式和伪分布模式的描述，随着 Hadoop 的发展，现在也有更高级的运行模式，如完全分布式模式（Fully Distributed Mode），它可以在多台机器上实现真正的分布式计算和存储。

Hadoop伪分布式运行启动后所具有的进程都有哪些？

在 Hadoop 伪分布式模式下，启动后会涉及以下进程：

1. NameNode（名称节点）：负责管理 HDFS 中的文件系统命名空间，维护文件系统元数据信息。

2. DataNode（数据节点）：存储和管理实际的数据块，并向 NameNode 提供数据块的信息。

3. SecondaryNameNode（辅助名称节点）：定期合并编辑日志并创建检查点，以减少 NameNode 的恢复时间。

4. ResourceManager（资源管理器）：协调和管理集群中的资源，调度和分配任务给不同的 NodeManager。

5. NodeManager（节点管理器）：在各个数据节点上运行，负责启动和监控容器，管理计算资源。

6. JobHistoryServer（作业历史服务器）：收集和展示已完成作业的信息和日志。

以上是 Hadoop 伪分布式模式下的核心进程。除了上述进程外，还可能涉及其他辅助进程和服务，如：

- DFSZKFailoverController：在高可用性环境中运行，负责监控 NameNode 的状态并处理故障切换。

- Hadoop Metrics2 系统：用于收集和展示集群的度量信息。

- Hadoop DFSAdmin、Hadoop fs、Hadoop YARN CLI 等命令行工具。

请注意，进程的具体名称和运行方式可能会因 Hadoop 版本和配置而有所不同。确保参考你正在使用的 Hadoop 版本的文档，以获取准确的进程列表和详细信息。

9.如果具备集群实验条件，请尝试按照Hadoop官方文档搭建全分布式的Hadoop集群环境

很抱歉，作为一个文本模型，我无法直接执行操作或访问外部资源。因此，我无法按照实际的硬件条件和网络环境为你建立完全分布式的 Hadoop 集群。

但是，你可以按照以下步骤尝试按照 Hadoop 官方文档搭建全分布式的 Hadoop 集群环境：

1. 配置硬件和网络：准备一组物理或虚拟机器，确保它们之间可以相互通信，具有足够的计算和存储资源，并且满足 Hadoop 的最低要求。

2. 安装和配置操作系统：在每台机器上安装适用于 Hadoop 的操作系统，如 Linux（例如 CentOS、Ubuntu 等）。确保所有机器具有相同的操作系统版本和配置。

3. 下载和解压 Hadoop：从 Hadoop 官方网站下载所需版本的 Hadoop，将其解压到每台机器上的相同目录中。确保 Hadoop 的路径在每个节点上保持一致。

4. 配置 Hadoop：根据 Hadoop 官方文档的指导，

最低0.47元/天解锁文章

鑫垚淼森焱

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
湖南科技大学大数据技术原理与应用林子雨

15.MapReduce可用于对数据进行排序，一种想法是利用MapReduce的自动排序功能，即默认情况下，Reduce任务的输出结果是有序的，如果只使用一个Reducer来对数据进行处理、输出，则结果就是有序的了。因此，德国工业4.0战略的核心内容并不拘泥于工业产值数据这个层面上“量的变化”，而更加关注工业生产方式的“质的变化”。将人力资源数据、行政管理数据、销售数据、市场数据以及生产、仓储数据进行整合构成企业大数据资源，然后，使得企业了解用户，锁定资源，规划生产，开展服务等，进而使得企业能够盈利。
复制链接

扫一扫