![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 85
Git122
这个作者很懒,什么都没留下…
展开
-
HDFS-MapReduce
WordCountTest 和 StoryWordCount 展示了如何实现一个简单的单词计数器,其中 WordCountTest 是一个单行文本的单词计数器,而 StoryWordCount 是一个使用 Hadoop MapReduce 框架的分布式单词计数器。它的任务是对输入的文本行进行分词,并为每个单词输出一个键值对,键是单词本身,值是单词出现的次数。HDFS 类封装了对 Hadoop 文件系统的操作,提供了一系列的方法来执行文件和目录的验证、创建、删除、上传和下载等操作。原创 2024-08-01 10:00:45 · 373 阅读 · 0 评论 -
Hive基础
【Hive简单介绍】数据仓库:数仓设计方案,本身并不存储数据(元数据,数据)元数据:RDB(Derby,Mysql)数据:Hdfs本质:为了让更多的人容易上手表象:sql本质:store : hadoop :大数据(hdfs)| ↓| hql| Complier(编译器)| stage plan(DAG√有向无环图)↓ ↓Jobs组成:mysql : 有分布式存储,无分布式计算表分区,分表,分库元数据 : mysqlDBSTBLSCOLUMNS_V2结构。原创 2024-07-26 11:15:32 · 537 阅读 · 0 评论 -
Yarn(分布式资源管理框架)
容量调度器是一种较为传统的调度策略,它提供了一种分层队列的资源管理方式,允许管理员预定义队列结构并为每个队列分配资源容量。Capacity Scheduler 支持队列间的资源隔离,并且可以为不同的队列设置不同的调度策略,如 FIFO、Fair 或者其他自定义策略。这种策略的优点在于能够保证长期运行的任务获得稳定的资源供应,但缺点是在资源紧张时可能会限制新任务的执行。原创 2024-07-25 09:11:28 · 566 阅读 · 0 评论 -
MapReduce
MapReduce 框架使用 InputFormat 模块做 Map 前的预处理(进行逻辑切分),比如验证输入的格式是否符合输入定义,然后将输入的文件切分为逻辑上的多个 InputSplit,InputSplit 是 MapReduce 对文件进行处理和运算的实际单位(逻辑概念),每个InputSplit没有对文件进行实际切割,只是记录了要处理的数据的位置和长度。Combiner执行的是类似于Reducer的操作,但是它是在Map任务的本地输出上执行的,而不是在整个数据集上。原创 2024-07-24 09:46:47 · 568 阅读 · 0 评论 -
HDFS文件操作
HDFS文件操作原创 2024-07-22 19:07:08 · 1005 阅读 · 0 评论 -
HDFS架构
HDFS架构原创 2024-07-22 19:02:18 · 615 阅读 · 0 评论 -
Hadoop 安装脚本
hadoop安装脚本原创 2024-07-22 11:07:58 · 242 阅读 · 0 评论 -
hadoop
hadoop简介原创 2024-07-22 11:04:55 · 125 阅读 · 0 评论