Hadoop
文章平均质量分 82
Hadoop
ElegantCodingWH
子非吾,焉之吾之乐也
展开
-
【Hadoop】hadoop文件路径正则写法
非字符范围 匹配一个不在{a,b}范围内 的字符(包括ab),a在字 典顺序上要小于或等于b。字符范围 匹配一个在{a,b}范围内的 字符(包括ab),a在字典 顺序上要小于或等于b。因此,可以一次读取多个文件。比如:一次性读取2024.1.1日至2024.6.30日的数据。非字符类别 匹配不是{a,b}中的一个字符。字符类别 匹配{a,b}中的一个字符。或选择 匹配包含a或b中的一个的语句。星号 匹配0或多个字符。原创 2024-07-22 20:44:14 · 240 阅读 · 0 评论 -
【Hadoop---14】MapReduce:OutputFormat『 TextOutputFormat | 自定义OutputFormat』
1. OutputFormat阶段流程2. OutputFormat与其子类关系图3. TextOutputFormat(默认)4. 自定义OutputFormat类4.1 什么时候需要自定义OutputFormat类4.2 自定义OutputFormat步骤4.3 自定义OutputFormat示例4.4 自定义RecordWriter示例4.5 自定义OutputFormat类与job绑定示例原创 2022-10-19 20:54:45 · 346 阅读 · 0 评论 -
【Hadoop---13】MapReduce:Shuffle『Partitioner | Combiner』
1. Shuffle详细流程2. 分区(Partitioner)2.1 什么是分区?2.2 默认分区器2.2 自定义分区器2.3 一个案例2.4 分区数 与 ReduceTask 不相等时会怎样?3. 可选操作:Combiner3.1 什么是Combiner?3.2 如何定义及如何使用Combiner?原创 2022-10-19 17:36:33 · 301 阅读 · 0 评论 -
【Hadoop---12】MapReduce:InputFormat『TextInputFormat | CombineFileInputFormat』
1. InputFormat与其子类关系图2. TextInputFormat(默认)2.1 切片机制2.2 读取机制2.3 如何设置?3. CombineFileInputFormat3.1 切片机制3.2 读取机制3.3 如何设置?原创 2022-10-18 20:19:46 · 480 阅读 · 0 评论 -
【Hadoop---11】MapReduce:基本数据类型 与 自定义数据类型『Writable接口 / WritableComparable接口 | 一个案例:统计手机流量』
1. Hadoop基本数据类型2. 序列化与反序列化概述2.1 什么是序列化与反序列化?2.2 为什么要序列化?2.3 为什么不用 Java 的序列化?3. 自定义数据类型(Writable / WritableComparable)3.1 为什么自定义数据类型必须实现序列化接口3.2 自定义数据类型步骤4. 案例:统计手机流量第一步:确定 Map、Reduce 逻辑第二步:编写Bean类第二步:编写Mapper类第三步:编写Reducer类第四步:编写Driver类第五步:运行原创 2022-10-17 15:50:10 · 1160 阅读 · 0 评论 -
【Hadoop---10】MapReduce:map阶段与reduce阶段「用一个统计词频的案例体会map与reduce」
1. Hadoop的类型与Java类型的映射2. 基于Hadoop使用Java实现词频统计第一步:确定 Map、Reduce 逻辑第二步:编写Map逻辑第三步:编写Reduce逻辑第四步:编写Drive逻辑第五步:运行程序得到结果方式一:本地运行【常用于测试阶段】方式二:在集群环境中运行【常用于实际情况】原创 2022-10-03 13:29:43 · 901 阅读 · 0 评论 -
Windows下安装hadoop
1. 第一步:下载安装包2. 第二步:解压下载的压缩包3. 第三步:为hadoop配置环境变量4. 第四步:验证是否安装成功原创 2022-10-03 11:49:39 · 1705 阅读 · 0 评论 -
【Hadoop---09】MapReduce:MapReduce概述 与 详细流程
MapReduce概述原创 2022-10-02 21:30:55 · 533 阅读 · 0 评论 -
【Hadoop---08】HDFS:NameNode 、 SecondaryNameNode 、DataNode 工作机制
1. NN 和 2NN1.1 nn 和 2nn 工作机制1.2 查看 fsImage_xxx 和 edits_xxx 文件2. DN2.1 dn工作机制2.2 数据完整性原创 2022-10-02 20:03:43 · 624 阅读 · 2 评论 -
【Hadoop---07】HDFS 读 / 写 数据流程(面试重点)
1. HDFS写数据1.1 HDFS写数据流程1.2 关于副本结点的选择流程2. HDFS读数据原创 2022-09-27 17:49:05 · 1989 阅读 · 0 评论 -
【Hadoop---06】Java操作HDFS的API
1. 编写Demo2. 常用 Java API3. 修改配置项3.1 方式一:使用配置文件配置3.2 方式二:使用java代码配置3.3 关于配置的优先级说明原创 2022-09-26 21:43:24 · 952 阅读 · 0 评论 -
【Hadoop---05】HDFS常用命令 『Hadoop常用命令』
1. 基本语法2. 查看帮助信息3. 常用命令3.1 与Linux命令一样的命令3.2 上传 / 下载 命令3.3 其他原创 2022-09-26 16:49:19 · 421 阅读 · 0 评论 -
【Hadoop---04】HDFS概述「HDFS 概述 | HDFS架构 | HDFS 文件块 | _SUCCESS文件」
1. HDFS 概述2. HDFS架构3. HDFS 文件块4. HDFS特性4.1 主从架构4.2 分块存储4.3 副本机制4.4 元数据管理4.5 namespace4.6 数据块存储原创 2022-09-22 22:30:22 · 395 阅读 · 0 评论 -
【Hadoop---03】Hadoop分布式环境搭建「安装虚拟机、安装CentOS操作系统 | 虚拟机的网络配置 | rsync | 集群配置 | 启动集群 | 集群测试」
环境配置第一步: 安装VMware 与 CentOS的虚拟机第二步:虚拟机网络配置第三步:主机远程登入虚拟机第四步: 配置一台模板虚拟机第五步: 克隆三台主机第六步:安装JDK和Hadoop(1第三步:主机远程登入虚拟机第四步: 配置一台模板虚拟机第五步: 克隆三台主机第六步:安装JDK和Hadoop(1) 首先给Hadoop102安装JDK(2) 再给Hadoop102安装Hadoop(3) 将Hadoop102的JDK和Hadoop复制给Hadoop103、Hadoop104原创 2022-09-18 16:34:47 · 926 阅读 · 0 评论 -
【Hadoop---02】Hadoop简介
1. 什么是Hadoop:是分布式系统基础架构。2. 作用:解决大数据的存储与分析计算。 【大数据有三个问题待解决:采集、存储和分析计算。Hadoop解决了后两个问题,采集由Flume、kafka等解决。】3. 特点: 1. **高可靠性**:因为原创 2022-09-17 20:37:00 · 447 阅读 · 0 评论 -
【Hadoop---01】什么是大数据?
1. **什么是大数据** :指无法或无法在一定时间内用常规的软件进行采集、存储、处理(分析计算) 的数据集合,是需要新处理模式才能处理的海量、高增长率、多样和低价值密度的信息资产。2. **特点** 1. 海量:一般为TB、PB、EB、ZB的数据量级。【要求存储数据的服务器越来越多】 2. 高增长率:数据量增长的越来越快。【要求处理数据的速度也要越来越快】 3. 多样化:有结原创 2022-09-17 20:35:42 · 144 阅读 · 0 评论