
Hadoop
文章平均质量分 92
星川皆无恙
大数据技术领域优质创作者 阿里云开发Clouder技能认证 持续更新各种大数据技术讲解及优质项目 苦尽甘来时,我再跟你讲来时的路
展开
-
大数据MapReduce:从原理到实战的全面指南
MapReduce是一种编程模型,用于大规模数据集(特别是非结构化数据)的并行处理。这个模型的核心思想是将大数据处理任务分解为两个主要步骤:Map和Reduce。Map阶段:接受输入数据,并将其分解成一系列的键值对。Reduce阶段:处理由Map阶段产生的键值对,进行某种形式的聚合操作,最终生成输出结果。这两个阶段的组合使得MapReduce能够解决一系列复杂的数据处理问题,并可方便地进行分布式实现。通过自定义Partitioner,你可以控制数据的分布。原创 2024-01-20 16:06:30 · 1941 阅读 · 2 评论 -
大数据技术之Hive(超级详细)
Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。原创 2023-12-13 12:19:21 · 2129 阅读 · 2 评论 -
大数据技术之Flume(超级详细)
Flume 是 Apache Software Foundation(ASF)的一个项目,用于高可靠、可扩展的大数据日志收集、聚合和传输。它通常被用于将分布式的、大规模产生的数据从各种源头(如Web服务器、应用程序日志等)采集到数据存储和处理系统(如Hadoop)中。原创 2023-12-02 23:24:45 · 4046 阅读 · 4 评论 -
大数据与云计算——部署Hadoop集群并运行MapReduce集群案例(超级详细!)
这篇博客文章详细介绍了如何部署Hadoop集群并运行MapReduce任务。首先,我们将详细解释Hadoop和MapReduce的基本概念,以及它们在大数据处理中的重要性。然后,我们将逐步指导读者如何在多节点环境中部署Hadoop集群,包括硬件和软件的配置,以及如何解决可能遇到的问题。接下来,我们将介绍如何在Hadoop集群上运行MapReduce任务,包括编写MapReduce程序,配置任务,以及监控任务的执行。最后,我们将分享一些优化Hadoop集群性能和MapReduce任务效率的技巧和建议。原创 2023-09-24 18:31:52 · 6002 阅读 · 3 评论 -
大数据技术之Sqoop
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。原创 2023-05-15 11:37:17 · 597 阅读 · 0 评论 -
大数据技术之Hadoop(生产调优手册)
在企业实际应用中会存在很多问题需要我们去解决,很多地方调优之后能够提高我们的工作效率,让我们事半功倍,本文是关于hadoop实际生产中一些调优配置的讲解和方法,希望对大家有所帮助。原创 2023-02-09 21:06:53 · 654 阅读 · 4 评论 -
大数据技术之Hadoop(Yarn)
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。更多关于yarn的详细内容及案例详情请看本博客。原创 2023-01-25 22:53:30 · 1396 阅读 · 2 评论 -
大数据技术之Hadoop(MapReduce)
MapReduce是一个`分布式运算程序的编程框架`,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。更多关于MapReduce详细内容请看本博客。原创 2023-01-21 22:41:32 · 1583 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)——超详细
HDFS(Hadoop Distributed File System),它是一个`文件系统`,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。原创 2023-01-15 21:43:46 · 13936 阅读 · 7 评论 -
大数据技术之SparkSQL(超级详细)
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!原创 2023-01-11 20:07:06 · 31600 阅读 · 2 评论 -
Hadoop集群崩溃时的处理方法
不少同学在部署集群时候不小心删除了一些文件,比如hadoop目录下的data等目录,导致集群崩溃无法启动或者进入不了web端口。很多小伙伴第一时间想到的就是重新格式化,但忙活了半天发现还是于事无补,无法正常启动集群,还爆出来一堆问题。下面我来教大家遇到Hadoop集群崩溃的如何处理。原创 2022-12-27 18:16:04 · 1119 阅读 · 0 评论 -
超详细版本|Linux Centos7从零搭建Hadoop集群及运行MapReduce分布式集群案例(全网最详细教程!)
花了快2小时的超详细版本的Linux从零搭建Hadoop集群(CentOS7+hadoop 3.2.0+JDK1.8+Mapreduce完全分布式集群案例+详细源码图文讲解)终于整理完成了!里面有详细的代码讲解及图文操作,能够更好的帮助大家搭建,希望此教程对各位有所帮助,这些都已经试过水了,各位环境配置和操作没问题的话,基本都能部署完成,我这里部署了一个从机node1节点,可以根据自己需要增加3台或者更多node节点,节点配置信息修改的操作都是一样的。祝各位部署一切顺利!原创 2022-11-20 14:23:08 · 10576 阅读 · 28 评论