自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

菜菜的大数据开发の路

java后端&&大数据开发,菜,尚在不断学习中!

  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 一, Kafka 概述, 安装, 快速入门

一, KafKa 概述1. 定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(MQ-Message Queue), 主要应用于大数据实时处理领域.二, Kafka 快速上手2.1 Kafka 基础架构Kafka 常用术语(摘抄, 点击查看全文)Topic, 是kafka下消息的类别, 逻辑概念, 用来区分,隔离不同的消息数据, 屏蔽底层复杂的存储方式,对于大多数人来说, 只需要关注数据写入到了那个topic, 从哪个topic取出数据.Partition, 是Kafka下数

2021-10-31 17:23:42 1355

原创 零, 消息队列的两种模式和应用场景, 以及Kafka 消息队列的特点

零, 消息队列自问自答环节:[0.什么是消息队列(MQ) ?]消息队列从实质上来说就是一个包含了消息发送接收对象, 存放消息队列的结构, 可归结为: 一发一存一消费,.综上来看, 消息队列就是: 生产者将消息投递到一个叫队列的容器中, 然后再从这个容器中取出消息, 最后转发给消费者.消息队列MQ 最常用的模式有两种, 点对点模式 和 发布/订阅模式.[1. 什么是点对点模式?]就是前面提到的最原始的消息队列,生产者把消息存储到队列中, 消费者从队列中取出消息, 如果存在多个

2021-10-29 16:54:37 586

原创 五, Flume常见组件类型的用法总结

文章目录零, 官方API一, Source(接收并处理数据)1.1 `exec` 类型的Soruce组件1.2 `netcat`类型的Source组件1.3 `spooldir`类型的Source组件1.4 `taildir`类型的Source组件1.4 `avro`类型的Source组件二, Channel2.1 `memory`类型的Channel组件2.2 `file`类型的Channel组件2.3 `kafka`类型的Channel组件三, Sink3.1 `logger`类型的sink组件3.2

2021-10-06 15:00:39 519

原创 四, 通过Ganglia实现监控Flume数据流

一, 什么是Ganglia ?Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。二, Ganglia 的安装和部署对分布式集群的安装前规划主机要安装的内容bigdata01web客

2021-10-04 14:43:05 453

原创 三, Flume 进阶下-- Flume自定义拦截器, 自定义Sources, 自定义Sinks

三, Flume 进阶- 自定义拦截器, 自定义Sources, 自定义Sinks3.1 自定义Intercepter拦截器我们结合实际例子了解自定义拦截器和多路复用channel选择器的结合使用.[案例需求]使用Flume 采集服务器本地日志, 我们需要根据日志类型的不同, 将不同种类的日志发往不同的分析系统. 本案例中, 我们以端口数据模拟日志(netcat 发送数据), 以单个数字和单个字母来模拟不同类型的日志.我们需要使用定义intercepter 区分数字和字母, 然后使用多路复用ch

2021-10-04 14:35:26 503

原创 二,Flume进阶上--Flume 事务和拓扑结构(串联, 复制和多路复用, 负载均衡或故障转移,聚合)

二, Flume 事务和拓扑结构2.1, Flume事务在Flume工作流程中, 主要有两大事务,分别是在数据接收端Source和数据缓冲区Channel之间的 Put事务(推送)Put事务:doPut: 将批数据写入临时缓冲区putList.doCommit: 检查channel内存队列是否足够合并.doRollback: 当channel内存队列空间不足(sink从channel拉取的数据量小于source放入channel的数据量), 会回滚数据.数据缓冲区Chan

2021-10-04 14:20:16 376

20分钟学会用IDEA_DEBUG调试JAVA, 笔记源文件和实例DEMO

20分钟学会用IDEA_DEBUG调试JAVA, 笔记源文件和实例DEMO

2021-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除