![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据处理技术
一角灯辉
这个作者很懒,什么都没留下…
展开
-
海量日志收集系统Flume
一、Flume定义 1.什么是Flume? 官方网址:http://flume.apache.org/ Flume是分布式的、可靠的和易用的日志收集系统,用于将大量日志从许多不同的源进行收集、聚合,最终移动到一个集中的数据中心进行存储。 特点:可靠性(保证数据不丢失)、可拓展性(各组件数目可拓展)、高性能(高吞吐量、能满足海量数据收集需求)、可管理性(可动态增加、删除组件) 2.发展历史 Fl...原创 2020-04-28 00:34:07 · 330 阅读 · 0 评论 -
一篇读懂分布式消息系统Kafka
目录一、Kafka定义1.什么是Kafka?2.发展历史3.基本概念二、Kafka工作原理1.Kafka架构2.主题和分区3.分区副本4.消费者组5.数据存储机制三、Kafka命令行操作1.主题管理2.消费者管理3.创建生产者4.更多操作命令四、Kafka Java API1.创建生产者2.创建消费者五、Kafka生产者拦截器 一、Kafka定义 1.什么是Kafka? Kafka是由Apache...原创 2020-04-20 19:40:27 · 202 阅读 · 0 评论 -
大数据处理技术之分布式协调服务ZooKeeper
ZooKeeper简介 1.什么是ZooKeeper ZooKeeper是Google的Chubby一个开源的实现,是Hadoop的分布式协调服务;它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 2.架构原理 由一组服务器节点组成。有一个节点角色为Leader,其他节点的角色为Follower;当客户端连接到ZooKeeper集群并执行写请求时,这些请求首先...原创 2020-04-12 01:33:38 · 331 阅读 · 0 评论 -
大数据处理技术之HDFS基本命令行操作
1.使用命令创建两个本地文本文件text1.txt(文本内容:Hello)、text2.txt(文本内容:Hadoop); vi text1.txt vi text2.txt 2.在HDFS系统根目录下创建目录input,在input目录下创建新目录files,并将本地文件text1.txt上传至HDFS系统files目录; //在HDFS系统根目录下创建目录input hdfs dfs -...原创 2020-04-12 01:08:43 · 1256 阅读 · 0 评论 -
HDFS文件系统介绍
Hadoop简介 Hadoop是Apache开源软件基金会开发的运行于大规模普通服务器上用于大数据存储、计算、分析的一种分布式存储系统和分布式运行框架。 其设计思想为使用普通机器(高性能、低成本)、数据冗余(HDFS)、并行化处理(MR)、移动计算(海量数据的情况下移动计算比移动数据更有效),其中思想基础为使用普通机器,只有做到高性能和低成本,使用门槛低,Hadoop项目才会迅速普及,被大家...原创 2020-03-06 21:03:35 · 1567 阅读 · 0 评论 -
Hadoop集群环境搭建
刷新原创 2020-02-29 01:15:21 · 1174 阅读 · 0 评论