![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 57
Zly_Bistu
这个作者很懒,什么都没留下…
展开
-
正反向代理服务器的区别
正向代理:无法直接访问目标服务器,需要通过其他服务器间接访问目标服务器。反向代理:需要一个中间服务器,来代理多个目标服务器。两者区别:正向代理代理的对象是客户端,反向代理代理的对象是服务端...原创 2021-03-19 18:29:57 · 162 阅读 · 0 评论 -
kafka详解 从原理到应用
第一章 kafka概述1.1 定义kafka是一个分布式的基于发布/订阅模式的消息队列(message queue),主要用于大数据实时处理。在实际应用场景中,kafka通常是加在flume通道之间,起到一个削峰缓冲的作用。1.2 消息队列1.2.1 消息队列的应用场景可以看到,同步和异步的最大区别在于异步无需等到终端接收到消息,便能够收到页面注册成功的相应。使用消息队列的好处1)解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效原创 2021-01-26 08:42:29 · 301 阅读 · 1 评论 -
flume详解 从原理到应用
第一章 flume概述1.1 flume定义flume是cloudera提供的一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。flume基于流式架构,灵活简单。flume最主要的作用:实时读取服务器本地磁盘的数据,将数据写入HDFS或kafka消息队列中。1.2 flume基础架构flume的组成架构如图所示:1.2.1 agentagent是一个jvm进程,他以事件的形式将数据从源头送至目的地。agent主要有3个部分组成:source、channel、sink1.2原创 2020-11-17 20:37:44 · 1442 阅读 · 0 评论 -
Hive原理、安装和环境部署
第1章 Hive基本概念1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序。(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上1.2Hive的优缺点1.2.1 优点(1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上原创 2020-11-04 21:01:57 · 496 阅读 · 1 评论 -
Hadoop3x,Hadoop2x新特性
一、Hadoop2x的新特性1.集群间的数据拷贝(1)scp实现两个远程主机之间的文件复制(2)采用distcp命令实现两个Hadoop集群之间的递归数据复制2.小文件存档(1)HDFS存储小文件弊端(2)解决存储小文件具体办法(3)案例实操3.回收站(1)开启回收站功能参数说明(2)回收站工作机制(3)案例实操二、Hadoop3x的新特性1.多NN的HA架构HDFS NameNode高可用性的初始实现为单个活动NameNode和单个备用NameNode,将edits复制到三个J原创 2020-10-20 19:21:19 · 304 阅读 · 1 评论