![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 87
dwjf321
这个作者很懒,什么都没留下…
展开
-
Kafka 原理分析—— Parition的高可用副本机制
文章目录1. 副本分配算法2. kafka副本机制中的几个概念3. 副本协同机制4. 副本同步队列(ISR)5. 水位值 (HW) 和 日志末端位移 (LED)6. 数据的同步过程我们已经知道 Kafka 的每个 topic 都可以分为多个 Partition,并且多个 Partition 会均匀分布在集群的各个节点上。虽然这种方式能够有效的对数据进行分片,但是对于每个 partition 来说都是单点的。当其中一个 partition 不可用的时候,那么这部分消息就没办法消费。所以 Kafka 为了提高原创 2021-03-02 11:06:23 · 237 阅读 · 0 评论 -
Kafka 原理分析——消息存储的原理
Kafka 原理分析——消息存储的原理文章目录Kafka 原理分析——消息存储的原理1. 消息的文件存储机制2. LogSegment3. 查看 segment 文件命名规则4. segment 中 index 和 log 的对应关系5. 在 partition 中如何通过 offset 查找 message6. Log 文件的消息内容分析7. 日志的清除策略8. 日志的压缩策略1. 消息的文件存储机制我们知道一个 topic 的多个 partition 在物理磁盘上保存在 log.dirs配置的路径原创 2021-03-02 11:03:34 · 588 阅读 · 2 评论 -
Kafka 实战指南——Kafka API 实战
文章目录1. 环境准备2. 生产者 Java API3. 自定义分区4. Kafka 消费者 Java API1. 环境准备创建 maven 工程,添加依赖:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.1.0</version></de原创 2021-03-02 11:01:59 · 220 阅读 · 0 评论 -
Kafka 实战指南——Kafka 消费者配置
文章目录1. 消费位点提交2. 消费位点重置3. session 超时和心跳监测4. 拉取大消息5. 拉取公网6. 消息重复和消费幂等7. 消费失败8. 消费延迟9. 消费阻塞以及堆积10. 提高消费速度11. 消息过滤12. 事务消息13. 消息广播14. 订阅关系1. 消费位点提交消息队列Kafka版消费者有两个相关参数:enable.auto.commit:默认值为 true,自动提交。auto.commit.interval.ms: 默认值为1000,也即1s。这两个参数组合的结果就是原创 2021-03-02 11:00:36 · 5929 阅读 · 0 评论 -
Kafka 实战指南——Kafka 生产者配置
文章目录1. Key和Value2. 失败重试3. 异步发送4. 线程安全5. Acks6. Batch7. 单个请求的最大值8. OOM9. 分区顺序10. 顺序保证11. Producer 幂等性11.1 Producer 幂等性设置11.2 幂等性原理11.3 原因分析12. Producer 开启事务12.1 Producer 事务示例12.1.2 查找TransactionCoordinator事务实现原理12.1.3 获取PID12.1.4 开启事务12.1.5 Consume-Porcess-原创 2021-03-02 10:58:35 · 2770 阅读 · 0 评论 -
Kafka 实战指南—— Kafka 工作原理分析
文章目录1. Kafka 生产过程分析1.1 Kafka 的消息写入方式(顺序写磁盘)1.2 分区(Partition)1.2.1 为什么要分区1.2.2 分区的原则1.3 副本(Replication)1.4 写入流程2. Broker 保存消息2.1 存储方式2.2 存储策略2.3 Zookeeper 存储结构3. Kafka 消费过程分析3.3 消费者组3.4 消费方式Kafka 核心组成:图 Kafka 核心组成1. Kafka 生产过程分析1.1 Kafka 的消息写入方式(顺序写磁盘)原创 2021-03-02 10:49:06 · 294 阅读 · 0 评论 -
Kafka 实战指南——Kafka概述
文章目录1. 什么是消息队列2. 消息队列的消费模式3. 为什么需要消息队列4. 什么是Kafka5. kafka 架构1. 什么是消息队列一般来说,消息队列是一种异步的服务间通信方式,是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。使用较多的消息队列有RocketMQ、RabbitMQ、Kafka等。2. 消息队列的消费模式消息队列内部实现原理:通过消息队列内部实现原理,我们观察到消息队列的模式有:点对点模式和发布/订阅模式。原创 2021-03-02 10:45:36 · 219 阅读 · 0 评论 -
Kafka 实战指南——Kafka 集群部署
文章目录1. 环境准备1.1 集群规划1.2 安装包下载2. Kafka 集群部署3. Kafka 命令行操作1. 环境准备1.1 集群规划hadoop102hadoop102hadoop102zkzkzkkafkakafkakafka1.2 安装包下载http://kafka.apache.org/downloads.html2. Kafka 集群部署解压安装包[dwjf321@hadoop102 software]$ tar -zxvf kaf原创 2021-03-02 10:42:55 · 137 阅读 · 0 评论 -
大数据技术之 Sqoop
文章目录1. Sqoop 简介2. Sqoop 原理3. Sqoop 安装3.1 下载并解压3.2 修改配置文件3.3 拷贝JDBC驱动3.4 验证 Sqoop3.5 测试 Sqoop 是否能够成功连接数据库4. Sqoop 的简单实用案例4.1 导入数据4.1.1 RDBMS 到 HDFS4.1.1.1 导入数据4.1.2 RDBMS 到Hive4.1.3 RDBMS 到Hbase4.2 导出数据4.2.1 HIVE/HDFS 到 RDBMS4.3 脚本打包5. Sqoop 一些常用命令及参数5.1 常用原创 2021-01-16 23:16:25 · 4633 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第十章 Hive 企业级调优
文章目录1. Fetch抓取2. 本地模式3. 表的优化3.1 小表、大表Join3.2 大表Join大表3.2.1 空KEY过滤3.2.2 空 key 转换3.3 MapJoin3.3.1 开启MapJoin参数设置3.3.2 MapJoin 工作机制3.3.3 案例实操3.4 Group By3.5 Count(Distinct) 去重统计3.6 笛卡尔积3.7 行列过滤3.8 动态分区调整3.8.1 开启动态分区参数设置3.8.2 案例实操3.9 分桶3.10 分区4. 数据倾斜4.1 合理设置 Ma原创 2021-01-16 23:15:19 · 2101 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第八章 Hive 查询函数
文章目录1. 系统内置函数2. 常用函数2.1 指标函数2.2 collect_set 函数2.3 日期处理函数2.4 字符串连接函数2.5 json 解析函数3. 其他常用查询函数3.1 空字段赋值3.2 CASE WHEN3.3 行转列3.4 列转行3.5 窗口函数3.6 Rank4. 自定义函数5. 自定义 UDF 函数6. 自定义 UDTF 函数6.1 自定义 UDTF 步骤6.2 具体实现1. 系统内置函数查看系统自带的函数hive> show functions;显示自带原创 2021-01-16 23:13:00 · 1843 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第七章 Hive 查询
文章目录1.基本查询(Select…From)1.1 全表和特定列查询1.2 列别名1.3 算术运算符1.4 常用函数1.4.1 指标函数1.4.2 collect_set 函数1.4.3 日期处理函数1.4.4 字符串连接函数1.4.5 json 解析函数1.5 Limit语句2. Where语句2.1 比较运算符(Between/In/ Is Null)2.2 Like 和 RLike2.3 逻辑运算符(And/Or/Not)3. 分组3.1 Group By 语句3.2 Having 语句4. Joi原创 2021-01-16 23:12:06 · 932 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第六章 Hive DML 语句定义
文章目录1. 导入数据1.1 向表中装载数据(Load)1.1.1 语法1.1.2 实操案例1.1.2.1 创建一张表1.1.2.2 加载本地文件到 hive1.1.2.3 加载HDFS文件到hive中1.1.2.4 加载数据覆盖表中已有的数据1.2 通过查询项表中插入数据(Insert)1.3 查询语句中创建表并加载数据(As Select)1.4 创建表时通过 Location 指定加载数据路径1.5 Import 数据到指定 Hive 中2. 数据导出2.1 Insert导出2.2 Hadoop命令导原创 2021-01-16 23:08:38 · 553 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第五章 Hive DDL 语句定义
文章目录1. 创建数据库2.1 显示数据库2.2 查看数据库详情2.3 切换当前数据库3. 修改数据库4. 删除数据库5. 创建表5.1 建表语法5.2 字段解释说明5.3 管理表(内部表)5.3.1 理论5.3.2 案例实操5.4 外部表5.4.1 理论5.4.2 管理表和外部表的使用场景5.4.3 案例操作5.5 管理表与外部表相互转换6. 分区表6.1 分区表基本操作6.2 二级分区表7. 修改表7.1 修改表名7.2 增加、修改和删除表分区7.3 增加/修改/替换列信息8. 删除表1. 创建数据库原创 2021-01-16 23:07:48 · 617 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第四章 Hive 数据类型
文章目录1. 基本数据类型2. 集合数据类型3. 类型转化1. 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159原创 2021-01-16 23:06:18 · 509 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第三章 Hive 运行引擎 Tez
文章目录1. Tez 安装1.1 安装包准备2. 在 Hive 中配置 Tez3. 配置 Tez4. 上传 Tez 到集群5. 测试6. 小结Tez 是一个 Hive 的运行引擎,性能优于 MR。为什么呢?看下图:用 Hive 直接编写 MR 程序,假设有四个有依赖关系的 MR 作业,上图中,绿色是 Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到 HDFS。Tez 可以将多个有依赖的作业转换为一个作业,这样只需写一次 HDFS,且中间节点较少,从而大大提升作业的计算性能。1. T原创 2021-01-16 23:05:05 · 559 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第二章 Hive 安装
文章目录1. Hive 安装地址2. Hive 安装部署2.1 Hive 安装及配置2.2 Hadoop 集群配置2.3 Hive基本操作3. 将本地文件导入 Hive 案例3.1 数据准备3.2 Hive 实际操作3.3 遇到的问题4. Hive 元数据配置到 MySql4.1 驱动拷贝4.2 配置 Metastore 到 MySql4.3 多窗口启动 Hive 测试5. HiveJDBC 访问5.1 启动 hiveserver2 服务5.2 连接 hiveserver25.3 DBeaver 连接 hi原创 2021-01-16 23:03:31 · 566 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第一章 Hive 入门
文章目录1. 什么是 Hive2. Hive 的优缺点2.1 优点2.2 缺点3. Hive 的架构原理4. Hive 和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4.4 索引4.5 执行4.6 执行延迟4.7 可扩展性4.8 数据规模1. 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapRed原创 2021-01-16 23:01:06 · 2559 阅读 · 0 评论 -
Flume 从 0 到 1 学习 —— 第四章 Flume高级之自定义 MySQLSource
文章目录1. 自定义Source说明2. 自定义 MysqlSource 组成4. 代码实现4.1 导入 pom.xml 依赖4.2 添加配置信息4.3 SQLSourceHelper4.4 MySQLSource5. 测试5.1 Jar 包准备5.2 配置文件准备5.3 MySql 表准备5.4 测试并查看结果1. 自定义Source说明Source 是负责接收数据到 Flume Agent 的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、s原创 2021-01-11 17:47:34 · 405 阅读 · 0 评论 -
Flume 从 0 到 1 学习 —— 第三章 Flume 监控之 Ganglia
文章目录1. Ganglia的安装与部署2. 操作 Flume 测试监控1. Ganglia的安装与部署安装httpd服务与php[dwjf321@hadoop102 flume]$ sudo yum -y install httpd php安装其他依赖[dwjf321@hadoop102 flume]$ sudo yum -y install apr-devel安装 ganglia [ˈgæŋgliə][dwjf321@hadoop102 flume]$ sudo rpm原创 2021-01-11 17:45:51 · 378 阅读 · 0 评论 -
Flume 从 0 到 1 学习 —— 第二章 Flume 快速入门
flume 安装、配置、自定义拦截器原创 2021-01-11 17:42:31 · 734 阅读 · 0 评论 -
Flume 从 0 到 1 学习 —— 第一章 Flume 介绍
文章目录1. Flume 定义2. Flume 组成架构2.1 Agent2.2 Source2.3 Channel2.4 Sink2.5 Event3. Flume 拓扑结构1. Flume 定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统。Flume 基于流式架构、灵活简单。2. Flume 组成架构Flume 组成架构,如图 1-1、1-2 所示:图 1-1 Flume 组成架构Flume组成架构详解,如图所示:图 1-2 F原创 2021-01-11 17:38:13 · 410 阅读 · 0 评论 -
HBase最佳实践
文章目录1. 架构原理1.1 基本架构1.1.1 Client1.1.2 Zookeeper1.1.3 hbase:meta表1.1.4 HMaster1.1.5 RegionServer1.1.6 BlockCache1.1.7 WAL HLog1.1.8 Region1.1.9 HDFS1.2 写数据与 Memstore Flush1.3 读数据 与 Bloom Filter1.4 HFile存储格式1.4.1 生成一个HFile1.4.2 检索HFile1.5 HFile Compaction1.5原创 2020-11-26 19:22:31 · 2299 阅读 · 1 评论 -
Hadoop 从 0 到 1 学习 ——第十四章 Hadoop 企业优化
文章目录1. MapReduce 跑的慢的原因2. MapReduce 优化方法2.1 数据输入优化2.2 Map 阶段优化2.3 Reudce 阶段优化2.4 I/O 传输2.5 数据倾斜问题优化2.6 常用的调优参数2.6.1 资源相关参数2.6.2 容错相关参数(MapReduce性能优化)3. HDFS 小文件优化方法3.1 HDFS 小文件弊端3.2 HDFS 小文件解决方案1. MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:计算机性能CPU、内存、磁盘健原创 2020-11-26 17:28:55 · 247 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十三章 Yarn 资源调度器
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。文章目录1. Yarn 基本架构2. Yarn 工作机制2.1 Yarn 运行机制图解2.2 Yarn 运行机制详解3. 作业提交全过程3.1 作业提交过程之 YARN3.2 作业提交过程之 MapReduce4. 资源调度器4.1 先进先出调度器(FIFO)4.2 容量调度器(Capacity Scheduler)4.3 公平调度器(Fa原创 2020-11-26 17:27:51 · 231 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十二章 Hadoop 数据压缩
文章目录1. 压缩概述2. 压缩策略和原则3. MR 支持的压缩编码4. 压缩方式选择4.1 Gzip 压缩4.2 Bzip2 压缩4.3 Lzo 压缩4.4 Snappy 压缩5. 压缩位置选择6. 压缩参数配置7. 压缩实操案例7.1 数据流的压缩和解压缩7.2 测试 Hadoop 压缩方式7.3 Map 输出端采用压缩7.4 Reduce 输出端采用压缩1. 压缩概述压缩计算能够有效减少底层存储系统读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行 MR 程序时, I/O 操作、网络传输、S原创 2020-11-26 17:23:53 · 237 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十一章 MapReduce 框架原理
文章目录1. InputFormat 数据输入1.1 切片与 MapTask 并行度决定机制1.2 Job 提交流程源码和切片源码详解1.3 FileInputFormat 切片机制1.3.1 切片机制1.3.2 案例分析1.3.3 FileInputFormat 切片大小的参数配置1.4 CombineTextInputFormat 切片机制1.4.1 应用场景1.4.2 虚拟存储切片最大值设置1.4.3 切片机制1.5 CombineTextInputFormat 案例操作1.5.1 需求1.5.2 实原创 2020-11-26 17:22:19 · 468 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第十章 Hadoop 序列化
文章目录1. 序列化概述1.1 什么是序列化1.2 为什么要序列化1.3 为什么不使用 Java 的序列化2. 自定义 bean 对象实现序列化接口(Writable)3. 序列化案例操作3.1 需求3.2 需求分析3.3 编写 MapReduce 程序1. 序列化概述1.1 什么是序列化序列化就是把内存中的对象转换成字节序列(或其他数据传输协议),以便存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘持久化数据转换成内存中的对象。1.2 为什么要序列化原创 2020-11-26 17:15:39 · 377 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第九章 MapReduce 概述
文章目录1. MapReduce 定义2. MapReduce 优缺点2.1 优点2.2 缺点3. MapReudce 核心思想4. MapReduce 进程5. 常用数据序列化类型6 .MapReduce 编程规范7. WordCount 案例操作7.1 需求7.2 需求分析7.3 编写程序1. MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是基于 Hadoop 的数据分析计算核心框架。MapReduce 处理过程分为两个阶段:Map 和 Reduce:Map 负责原创 2020-11-26 17:13:17 · 265 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第八章 HDFS HA高可用
HDFS-HA工作机制 自动故障转移工作机制 HDFS-HA 集群配置原创 2020-11-26 17:10:09 · 315 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第七章 HDFS 2.X新特性
文章目录1. 集群间数据拷贝2. 小文件存档2.1 HDFS 存储小文件弊端2.2 解决存储小文件办法之一2.3 案例操作3. 回收站3.1 开启回收站功能参数说明3.2 回收站工作机制4. 快照管理4.1 快照管理4.2 案例操作1. 集群间数据拷贝scp实现两个远程主机之间的文件复制推 push$ scp -r hello.txt root@hadoop103:/user/dwjf321/hello.txt拉 pull$ scp -r root@hadoop103:/user/atgu原创 2020-11-26 17:07:55 · 246 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第六章 HDFS NameNode 和 SecondaryNameNode 详解 (面试开发重点)
文章目录1. NameNode和SecondaryNameNode1.1 NameNode 和 SecondaryNameNode 工作机制1.2 Fsimage 和 Edits 解析1.2.1 概念1.2.2 oiv 查看 Fsimage 文件1.2.3 oev 查看 Edits 文件1.3 CheckPoint 时间设置1.4 NameNode故障处理1.5 集群安全模式1.5.1 概述1.5.2 基本语法1.5.3 案例1.6 NameNode 多目录配置2. DataNode 详解2.1 DataN原创 2020-11-26 17:05:39 · 294 阅读 · 0 评论 -
Flink 从 0 到 1 学习 —— 第三章 Flink 部署
文章目录1. Standalone 模式1.1 安装2. YARN 模式2.1 Flink On Yarn3. Session Cluster4. Per-Job Cluster1. Standalone 模式1.1 安装解压缩 flink-1.10.1-bin-scala_2.12.tgz,修改名称为 flink,进入conf目录中。修改flink/conf/flink-conf.yaml文件jobmanager.rpc.address: hadoop102修改 flink/conf原创 2020-11-19 23:43:28 · 289 阅读 · 0 评论 -
Flink 从0 到 1 学习—— 第 十一 章 Flink的复杂事件处理机制CEP
文章目录1. CEP概念2. CEP的主要特点3. Pattern API1.3.1 输入事件流的创建1.3.2 Pattern的定义1.3.2.1 设置循环次数1.3.2.2 定义条件1.3.2.3 模式序列1.3.3 Pattern检测1.3.4 选取结果4. CEP编程开发案例实战——银行APP 登录异常检测4.1 使用State编程实现4.2 使用CEP编程实现5. Flink CEP综合案例实战——传感器温度检测6. Flink CEP综合案例实战——监控订单状态1. CEP概念CEP 是 C原创 2020-11-19 23:19:45 · 378 阅读 · 0 评论 -
Flink 实战 —— Flink 集成 Hive
flink sql flink 整合 hive原创 2020-11-18 00:07:59 · 3636 阅读 · 1 评论 -
Spark 从 0 到 1 学习 —— Spark 集群搭建
spark集群搭建 saprk on yarn原创 2020-11-16 23:16:54 · 288 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第五章 HDFS 数据流
文章目录1. HDFS 的数据流 (面试重点)1.1 HDFS 写数据流程1.1.1 剖析写数据流程1.1.2 网络拓扑 - 节点距离计算1.1.3 机架感知 (弗恩存储节点选择)1.2 HDFS 读数据流程1. HDFS 的数据流 (面试重点)1.1 HDFS 写数据流程1.1.1 剖析写数据流程HDFS 写数据流程客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否原创 2020-10-29 14:40:46 · 235 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第四章 HDFS客户端操作
文章目录1. HDFS 的 Shell 操作 (开发重点)1.1 基本语法1.2 命令大全1.3 常用命令实操2. HDSF Java客户端操作(开发重点)2.1 Java 客户端操作 HDFS1. HDFS 的 Shell 操作 (开发重点)1.1 基本语法$ bin/hadoop fs 具体命令或者$ bin/hdfs dfs 具体命令dfs 是 fs 的实现类。1.2 命令大全[dwjf321@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-ap原创 2020-10-29 14:37:22 · 170 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第三章 初识HDFS
文章目录1. HDFS 概述1.1 HDFS 产生背景及定义1.11 HDFS 产生背景1.1.2 HDFS 定义1.1.3 HDFS 的使用场景1.2 HDFS 优缺点1.2.1 优点1.2.2 缺点1.3 HDFS 组成架构1.3.1 NameNode (nn)1.3.2 DataNode1.3.3 Client1.3.4 Secondary NameNode1.4 HDFS 文件块大小 (面试重点)1. HDFS 概述1.1 HDFS 产生背景及定义1.11 HDFS 产生背景随着数据量越来越原创 2020-10-29 14:34:43 · 595 阅读 · 0 评论 -
Hadoop 从 0 到 1 学习 ——第二章 Hadoop 运行环境搭建
文章目录1. 虚拟机环境准备2. 安装 JDK3. SSH 免密登录配置3.1 ssh连接另一台电脑基本语法3.2 无密钥配置5. 编写集群分发脚本 xsync5.1 scp(secure copy)安全拷贝5.2 rsync 远程同步工具5.3 xsync集群分发脚本6. 安装 Hadoop6.1 hadoop 目录结构6.2 配置集群6.2.1 核心配置文件6.2.2 HDFS配置文件6.2.3 YARN配置文件6.2.4 MapReduce配置文件6.2.5 在集群上分发配置好的 hadoop 配置文原创 2020-10-29 14:30:44 · 316 阅读 · 0 评论