梦meng~-CSDN博客

原创 Kafka的概述与使用

第一章Kafka概述1.1定义Kafka是一个分布式的基于分布/订阅模式的消息队列，主要应用于大数据试试处理领域。1.2消息队列1.2.1传统消息队列的应用场景同步处理异步处理使用消息队列的好处（1）解耦允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束(2)可恢复性系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。（3）缓冲有助于...

2020-10-12 19:27:53 307

原创 Flume

第一章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume最主要的的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS1.2Flume基础架构1.2.1AgentAgent是一个JVM进程，他以事件的形式将数据从源头送至目的。Agent主要有三部分组成：Source Channel Sink一个channel可以对应几个Sink，但是一个Sink

2020-10-09 21:13:21 428 1

原创 MapReduce概述

第1章 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1）MapReduce 易于编程它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式

2020-08-24 20:24:53 210

原创 MapReduce工作流程

MapReduce工作流程上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：（1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件（3）多个溢出文件会被合并成大的溢出文件（4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序（5）ReduceTask根据自己的分区号，去各个MapTask机器上取

2020-08-13 14:53:13 408 1

原创 hadoop集群 HDFS常用命令

常用命令实操1. 准备工作1）启动Hadoop集群（方便后续的测试）[lmy@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh[lmy@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh2）-help：输出这个命令参数[lmy@hadoop102 hadoop-3.1.3]$ hadoop fs -help rm2. 上传1）-moveFromLocal：从本地剪切粘贴到HDFS[lmy@hadoop102 hadoo

2020-08-12 19:53:54 442

原创 hadoop完全分布式

hadoop搭建完全分布式集群配置集群（1）核心配置文件配置core-site.xml[atguigu@hadoop102 ~]$ cd HADOOPHOME/etc/hadoop[atguigu@hadoop102hadoop]HADOOP_HOME/etc/hadoop[atguigu@hadoop102 hadoop]HADOOPHOME/etc/hadoop[atguigu@hadoop102hadoop] vim core-site.xml文件内容如下：<?xml versi

2020-08-07 13:48:17 176

qq_41585887的博客