2401_83236175-CSDN博客

转载 Hadoop完全分布式搭建

1.修改主机名称为 “master” （你可以取其它的名字）与hosts文件，方便后续进行集群之间的映射。修改hosts文件，（三台主机的IP要对应且遵循顺序）提前添加映射，注意保存退出。2.关闭防火墙3 卸载原生 JDK，最小化安装的无需操作。

2024-04-26 13:56:51 22

hive是一个基于hadoop的数据库仓库工具，通过本次hive的安装，，我成功的在Hadoop集群上安装hive，并进行了基础的配置和数据加载操作。同时也对工作原理和性能优化有了更深入的了解。积累经验的同时也更好的应对以后对大数据处理的需求。下载完之后将hive组件包上传到centos虚拟机上面，然后用。这里我们下载社区版的就行：community。数据库设置完成后要进入hive组件配置文件。hive组件可以去官网上下载：如下图示。三 hive测试验证是否成功搭建。一安装hive组件。

2024-04-09 17:06:22 131

原创如何配置永久IP和临时IP及yum仓库镜像源

这些是熟练掌握虚拟机并使用虚拟机的基础！提示：以下是本篇文章正文内容，下面案例可供参考以上仅仅是centos中搭建yum仓库的具体步骤以及如何配置临时IP和配置永久IP的全部步骤，简单说，这些都是最基础的，但也是学好centos的奠基，希望可以给大家带来一些帮助！1.2.

2024-03-21 19:14:40 1616

原创 Linux基础命令操作截图（大家也都可以学会呦）

1️⃣2️⃣3️⃣4️⃣5️⃣。

2024-03-15 00:18:23 458

转载 Spark的发展历史及特点，以及其与MapReduce的区别

🟠Spark的发展历史：Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms, Machines and People）实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。这是因为Spark处理数据时可以将中间处理结果数据存储到内存中，并且其Job调度以DAG方式进行，每个任务Task的执行为线程方式，而非MapReduce的进程方式执行。这使得Spark可以与其他的开源产品进行良好的融合，降低了使用的门槛。

2024-03-08 17:40:20 43

转载关与大数据技术中的热备、冷备、温备详细解释和说明

🟢冷备：在关闭数据库的情况下进行备份。这种备份方式不影响数据库的正常运行，但是需要停止数据库的服务。🟢热备：在数据库运行状态下进行备份，备份时不需要停止数据库的服务。但是，由于备份时需要访问数据库文件，因此备份过程中可能会影响数据库的正常运行。🟢温备：同样是在数据库运行中进行的，但是会对当前数据库的操作有所影响，备份时仅支持读操作，不支持写操作。🟠首先，我们要对热备，冷备，温备有个大致的了解和概念。3️⃣ 温备：读操作可执行，写操作不可执行。2️⃣ 冷备：读写操作均不可运行。

2024-03-08 17:17:11 358

转载详细介绍MapReduce的特点以及其运行架构

▶️ 可扩展性：由于MapReduce模型的并行处理特性，它能够有效地处理大规模数据集。通过将任务分解为多个并行的Map和Reduce任务，可以在集群中的多个计算节点上同时处理数据，从而实现横向扩展。▶️容错性：在MapReduce中，每个Map和Reduce任务都是独立的，它们之间没有依赖关系。当一个计算节点发生故障时，系统可以自动重新分配任务给其他可用的节点，从而实现容错性。▶️简单性：MapReduce模型提供了一种简单而直观的方法来处理大规模数据集。2️⃣ Second MapReduce的特点。

2024-03-08 16:59:51 95

转载 Hodoop生态圈相关组件

6️⃣Spark：一种基于内存的分布式计算框架，与Mapreducer不同的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法，内部提供了大量的库，如 Spark Sql、Spark Streaming等；4️⃣HBase：一个建立在HDFS之上，面向列的针对性结构化数据的可伸缩、高可靠、高性能、分布式的动态数据库，保存的数据可以使用Mapreducer来处理，将数据存储和并行计算完美的结合在一起。

2024-03-08 16:45:56 26

转载大数据技术以及大数据结构化数据和非结构化数据的区别

▶️第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。▶️非结构化数据：数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。▶️第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据。

2024-03-07 22:48:53 131

2401_83236175的博客