Hadoop相关
文章平均质量分 90
介绍hadoop核心,HDFS、mapreduce、yarn及相关问题
GoAI
CSDN人工智能领域博客专家、新星计划计算机视觉方向导师、内容合伙人。阿里云社区专家博主、百度飞桨PPDE、飞桨校领航团团长、开源特训营导师,曾获多次AI比赛奖项及大厂实习,长期专注大数据与人工智能知识分享,相关合作和交流可私信。
展开
-
大数据开发面试知识点总结
本文详细介绍大数据hadoop生态圈各部分知识,包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术,总结内容适合大数据开发者学习,希望能够和大家多多交流。原创 2021-02-09 11:22:34 · 22381 阅读 · 51 评论 -
Mapreduce概念及流程介绍
Mapreduce框架:MapReduce的过程MapReduce是采用一种分而治之的思想设计出来的分布式计算框架,它由两个阶段组成:map阶段和reduce阶段。在map阶段中:首先读取HDFS中的文件,每个文件都以一个个block形式存在,block中的数据会被解析成多个kv对,然后调用map task的map方法;m...原创 2020-04-12 16:04:27 · 2077 阅读 · 0 评论 -
Hadoop常见命令总结
本文主要介绍Hadoop常见命令总结。进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh1、查看指定目录下内容Hadoopfs –ls [文件目录]eg: hadoop fs –ls /user/wangkai.pt...原创 2020-02-12 09:40:15 · 2540 阅读 · 0 评论 -
大数据常见运维问题汇总
大数据常见运维问题汇总其他安装问题:1.IDEA安装与配置https://blog.csdn.net/qq_27093465/article/details/774491172.IntelliJ IDEA 修改maven为阿里云仓库https://blog.csdn.net/u013541411/article/details/1001667123.Mysql安装:https://blog.csdn.net/qq_36582604/article/details/80526287原创 2021-03-16 20:05:56 · 1810 阅读 · 1 评论 -
Hadoop大数据生态组件环境安装
本文介绍大数据hadoop环境各组件安装,三台虚拟机分布式安装,详细安装过程内容可参考本文。各组件端口号查看:http://www.gaohongwei.cn/530/CentOS7配置NAT模式网络详细步骤(亲测版)https://blog.csdn.net/Jackson_mvp/article/details/1008569661.重启网络servicenetworkres..原创 2021-01-25 11:29:20 · 817 阅读 · 0 评论 -
Hadoop常见端口总结
大数据常见端口汇总:Hadoop:50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : ZKFC端口19888:jobhistory WEB UI端口Zookeeper:2181 : 客户端连接zookeeper的端口2888 : zookeeper集群内通讯使用,Leader监听此端口原创 2021-01-25 11:26:57 · 5290 阅读 · 1 评论 -
大数据开发笔记(一):HDFS介绍
HDFS1.请介绍一下HDFS? Hadoop由三部分组成:HDFS、分布式计算MapReduce和资源调度引擎Yarn。 HDFS 是一个分布式文件系统,负责文件存储。它的文件系统和平时看到的Linux很像,有目录结构,顶层目录是/,存放着文件,以及可以对文件进行增删,修改,移动等功能,不同的是它具有分布式的特点,hdfs的文件系统可以横跨多个机器,文件可能是存储在不同机器上的,但用户在使用时会被当作是存储在一台机器上。 HDFS具有高可用、容错率高、可扩展的特点。 在HDFS原创 2021-01-20 12:17:40 · 3455 阅读 · 2 评论 -
大数据开发笔记(二):Yarn分布式集群操作系统
Yarn分布式集群操作系统Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,不再强迫使用MapReduce框架。Yarn定位: 分布式集群操作系统1、资源管理和调度2、支持多个不同计算框架3、Mapreduce框架彻底重...原创 2021-01-20 12:19:31 · 2848 阅读 · 1 评论 -
大数据开发笔记(三):Mapreduce
MapReduce是采用一种分而治之的思想设计出来的分布式计算框架,它由两个阶段组成:map阶段和reduce阶段。在map阶段中:首先读取HDFS中的文件,每个文件都以一个个block形式存在,block中的数据会被解析成多个kv对,然后调用map task的map方法; map方法对接收到的kv对进行分片处理,转换输出成新的kv对; 然后对kv对进行分区和排序压缩,中间会涉及到map的shuffle过程,最后存入本地磁盘,供后续reduce task作为输入参数使用。...原创 2021-01-20 12:21:00 · 2290 阅读 · 0 评论