Hadoop
文章平均质量分 80
Hadoop
shangjg3
这个作者很懒,什么都没留下…
展开
-
MapReduce案例-电影网站数据统计分析
本文适合大数据初学者学习MapReduce统计分析业务问题的步骤和基础的MapReduce编程方法,初步掌握Hadoop对计算任务的管理。本文末尾有全部数据集和完整代码连接。1.准备工作按照好Hadoop之后要检查一下datanode运行情况,Hadoop3.x的默认端口是98702.上传数据文件到HDFS准备数据集将数据上传到HDFS3.编写统计分析代码3.1 Windows系统配置Hadoop开发环境在windows上开发和调试Hadoop代码需要。原创 2024-04-19 20:08:15 · 1396 阅读 · 0 评论 -
Hadoop 3.3.2 离线安装
2.6 配置etc/hadoop/mapred-site.xml。2.3 配置etc/hadoop/hadoop-env.sh。2.4 配置etc/hadoop/core-site.xml。2.5 配置etc/hadoop/hdfs-site.xml。2.7 配置etc/hadoop/yarn-site.xml。安装目录/data/cmpt/hadoop-3.3.2。1.1 安装jdk,配置jdk环境变量。2.2 配置hadoop环境变量。2.8格式化namenode。1.4 设置hosts。原创 2023-08-02 09:44:56 · 245 阅读 · 1 评论 -
HDFS Java API
FsPermission(FsAction u, FsAction g, FsAction o)` 的三个参数分别对应:创建者权限,同组其他用户权限,其他用户权限,权限值定义在 `FsAction` 枚举类中。块输出信息有三个值,分别是文件的起始偏移量 (offset),文件大小 (length),块所在的主机名 (hosts)。这里我上传的文件只有 57M(小于 128M),且程序中设置了副本系数为 1,所有只有一个块信息。和上面输出类似,只是多了文本大小,副本系数,块大小信息。2.6 查看文件内容。原创 2023-10-17 10:01:08 · 156 阅读 · 0 评论 -
Hadoop集群资源管理器-YARN
1.YARN简介Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。原创 2023-10-17 09:43:25 · 138 阅读 · 0 评论 -
Hadoop分布式计算框架-MapReduce
4. shuffling:由于 `Mapping` 操作可能是在不同的机器上并行处理的,所以需要通过 `shuffling` 将相同 `key` 值的数据分发到同一个节点上去合并,这样才能统计出最终的结果,此时得到 `K2` 为每一个单词,`List(V2)` 为可迭代集合,`V2` 就是 Mapping 中的 V2;`combiner` 是 `map` 运算后的可选操作,它实际上是一个本地化的 `reduce` 操作,它主要是在 `map` 计算出中间文件后做一个简单的合并重复 `key` 值的操作。原创 2023-10-17 09:32:22 · 591 阅读 · 0 评论 -
Hadoop分布式文件系统-HDFS
为了避免这个问题,可以配置 NameNode 使其支持 `FsImage` 和 `EditLog` 多副本同步,这样 `FsImage` 或 `EditLog` 的任何改变都会引起每个副本 `FsImage` 和 `EditLog` 的同步更新。如果复制因子大于 3,则随机确定第 4 个和之后副本的放置位置,同时保持每个机架的副本数量低于上限,上限值通常为 `(复制系数 - 1)/机架数量 + 2`,需要注意的是不允许同一个 `dataNode` 上具有同一个块的多个副本。原创 2023-10-16 21:44:37 · 506 阅读 · 0 评论