Hadoop
文章平均质量分 80
大数据之hadoop系列
NingKangMing
这个作者很懒,什么都没留下…
展开
-
Apache Hadoop之历史服务器&日志聚集配置
介绍了Apache Hadoop的分布式集群环境搭建,并测试了MapReduce分布式计算案例。但集群历史做了哪些任务,任务执行日志等信息还需要配置历史服务器和日志聚集才能更好的查看。原创 2024-07-10 09:27:44 · 357 阅读 · 0 评论 -
Apache Hadoop文件上传、下载、分布式计算案例初体验
通过上篇,我们搭建了完整的Hadoop集群,此篇我们简单通过集群上传和下载文件,同时测试分布式worldCount案例。后续的篇章再对分布式计算、分布式存储作更深的理解。原创 2024-07-04 10:03:11 · 545 阅读 · 0 评论 -
Apache Hadoop完全分布式集群搭建指南
本文主要使用centos7搭建apache hadoop完全分布式集群,详细介绍了Hadoop集群搭建、配置,Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置。另外介绍了hadoop集群单节点启动或集群批量启动脚本的使用。搭建完毕将启动HDFS的3节点DataNode、一节点NameNode、一节点SecondaryNameNode。而Yarn集群将启动三节点NodeManager、一节点ResourceManager。最后,文章给出了上传下载、分布式计算测原创 2024-07-11 10:22:38 · 1763 阅读 · 0 评论 -
Hadoop的读写流程
HDFS是一个高度容错的分布式文件系统,它设计用于运行在通用硬件上。HDFS将数据分割成固定大小的块,并将这些块存储在多个节点上,以实现数据的高可用性和可扩展性。每个数据块都会被复制到多个节点上,形成一个副本集,从而确保数据的可靠性。原创 2024-06-12 09:14:00 · 1026 阅读 · 0 评论 -
大数据的定义特点与应用场景?
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据是数据集合,信息资产,当这些数据集合大到常规数据库处理软件(如关系型数据库mysql、oracle、DB2等)无法处理,或说难以处理时,此时我们可以认为这类数据为大数据,当然,数据量巨大不过是大数据的一个基础特征,它还具有其它的一些特征。原创 2024-06-11 16:24:03 · 568 阅读 · 0 评论 -
Hadoop之HDFS分布式文件系统
HDFS 是 Hadoop 的分布式文件系统,它设计用于存储大量数据,并提供 高吞吐率的数据访问,通过将数据分块存储在多个节点上,实现数据的冗余存储和容错。原创 2024-06-11 10:12:09 · 484 阅读 · 0 评论 -
Apache Hadoop的核心组成及其架构
Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块Hadoop 生态系统的这些组件共同提供了一个完整的大数据解决方案,使得用户可以在单一平台上进行数据存储、管理、处理和分析。原创 2024-06-11 10:06:19 · 1233 阅读 · 0 评论 -
大数据之Hadoop的特点是什么?有什么优缺点?有哪些发行版本?
Hadoop 是一个开源的分布式存储和计算框架,由 Apache 软件基金会维护。Hadoop 的这些特点使其成为处理大规模数据集的理想选择,广泛应用于互联网、金融、医疗、科研等领域。原创 2024-06-11 10:01:38 · 1167 阅读 · 0 评论 -
大数据之Hadoop是什么?Hadoop起源?
Hadoop 是一个用于存储和处理大规模数据集(大数据)的分布式存储和分布式计算平台。它由 Apache 软件基金会维护,并基于 Java 编程语言编写。Hadoop 的核心设计理念是能够在普通硬件上运行,并且能够处理非常大的数据集。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架Hadoop 的可扩展性和容错性使其成为处理大数据问题的理想选择,尤其是在需要处理PB级数据量的场景中。原创 2024-06-11 09:38:33 · 682 阅读 · 1 评论