自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 Hadoop完全分布式搭建

1.修改主机名称为 “master” (你可以取其它的名字)与hosts文件,方便后续进行集群之间的映射。修改hosts文件,(三台主机的IP要对应且遵循顺序)提前添加映射,注意保存退出。2.关闭防火墙3 卸载原生 JDK,最小化安装的无需操作。

2024-04-26 13:56:51 22

转载 教会大家搭建HIve分布式集群

hive是一个基于hadoop的数据库仓库工具,通过本次hive的安装,,我成功的在Hadoop集群上安装hive,并进行了基础的配置和数据加载操作。同时也对工作原理和性能优化有了更深入的了解。积累经验的同时也更好的应对以后对大数据处理的需求。下载完之后将hive组件包上传到centos虚拟机上面,然后用。这里我们下载社区版的就行:community。数据库设置完成后要进入hive组件配置文件。hive组件可以去官网上下载:如下图示。三 hive测试验证是否成功搭建。一 安装hive组件。

2024-04-09 17:06:22 131

原创 如何配置永久IP和临时IP及yum仓库镜像源

这些是熟练掌握虚拟机并使用虚拟机的基础!提示:以下是本篇文章正文内容,下面案例可供参考以上仅仅是centos中搭建yum仓库的具体步骤以及如何配置临时IP和配置永久IP的全部步骤,简单说,这些都是最基础的,但也是学好centos的奠基,希望可以给大家带来一些帮助!1.2.

2024-03-21 19:14:40 1616

原创 Linux基础命令操作截图(大家也都可以学会呦)

1️⃣2️⃣3️⃣4️⃣5️⃣。

2024-03-15 00:18:23 458

转载 Spark的发展历史及特点,以及其与MapReduce的区别

🟠Spark的发展历史:Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。这是因为Spark处理数据时可以将中间处理结果数据存储到内存中,并且其Job调度以DAG方式进行,每个任务Task的执行为线程方式,而非MapReduce的进程方式执行。这使得Spark可以与其他的开源产品进行良好的融合,降低了使用的门槛。

2024-03-08 17:40:20 43

转载 关与大数据技术中的热备、冷备、温备详细解释和说明

🟢冷备:在关闭数据库的情况下进行备份。这种备份方式不影响数据库的正常运行,但是需要停止数据库的服务。🟢热备:在数据库运行状态下进行备份,备份时不需要停止数据库的服务。但是,由于备份时需要访问数据库文件,因此备份过程中可能会影响数据库的正常运行。🟢温备:同样是在数据库运行中进行的,但是会对当前数据库的操作有所影响,备份时 仅支持读操作,不支持写操作。🟠首先,我们要对热备,冷备,温备有个大致的了解和概念。3️⃣ 温备:读操作可执行,写操作不可执行。2️⃣ 冷备:读写操作均不可运行。

2024-03-08 17:17:11 358

转载 详细介绍MapReduce的特点以及其运行架构

▶️ 可扩展性:由于MapReduce模型的并行处理特性,它能够有效地处理大规模数据集。通过将任务分解为多个并行的Map和Reduce任务,可以在集群中的多个计算节点上同时处理数据,从而实现横向扩展。▶️容错性:在MapReduce中,每个Map和Reduce任务都是独立的,它们之间没有依赖关系。当一个计算节点发生故障时,系统可以自动重新分配任务给其他可用的节点,从而实现容错性。▶️简单性:MapReduce模型提供了一种简单而直观的方法来处理大规模数据集。2️⃣ Second MapReduce的特点。

2024-03-08 16:59:51 95

转载 Hodoop生态圈相关组件

6️⃣Spark:一种基于内存的分布式计算框架,与Mapreducer不同的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法,内部提供了大量的库,如 Spark Sql、Spark Streaming等;4️⃣HBase:一个建立在HDFS之上,面向列的针对性结构化数据的可伸缩、高可靠、高性能、分布式的动态数据库,保存的数据可以使用Mapreducer来处理,将数据存储和并行计算完美的结合在一起。

2024-03-08 16:45:56 26

转载 大数据技术以及大数据结构化数据和非结构化数据的区别

▶️第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。▶️非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。▶️第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据。

2024-03-07 22:48:53 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除