- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 Flume官方文档阅读笔记及实际操作
欢迎来到Apache FlumeFlume是一个分布式的,高可靠的,高可用的,高性能的海量日志数据采集、聚合和传输的系统。它是基于数据流的简单的灵活的架构。它具有高鲁棒性并且有着可调节的可靠的故障恢复机制和许多的失效备援。它使用一个简单的可扩展的数据模型,该模型可适用于在线分析应用。一丶概述Apache Flume是一个分布式的可靠的可用的系统,该系统用于有效的采集,聚集和传输大量...
2018-07-27 17:37:21 884 1
原创 RockMq学习笔记
RocketMq学习笔记消息队列为什么要使用消息队列消息队列(Message Queue)。众所周知,队列是一种“先进先出”的数据结构。通常来讲,分布式消息队列的结构是:即一个应用想向其他应用发送消息。它不直接向其发送消息,而是先发送到一个消息中间件,而消息接收方从消息中间件中获得消息。MQ的好处和典型的场景:消息通讯MQ提供了统一的消息通讯方式,应用无须再专门的写自己的发送消息、接收消息方法和协议,只需简单的向MQ发送消息、接收消息即可。比如上图中有4个应用,如果不使用MQ,两两
2021-06-23 14:39:12 348
原创 Logstash 与RocketMq集成-踩坑过程、实现和代码解读
Logstash 与RocketMq集成Logstash介绍与安装什么是LogstashLogstash是一个开源的数据收集引擎,可以动态地从多个不同的设备中收集数据、进行数据转换(transform),然后输出到“存储”中。这个存储可以是多种多样的。最初logstash用于日志的收集分析,但现在其拥有了广泛的功能,是elastic生态栈中的重要组成部分。它可以利用各种插件,来应对各式各样的输入源、转换操作和输出源。如下图所示:图中表示,输入源可以是各种渠道的,如数据库、redis等等,输出也可
2021-06-21 22:46:53 2509 3
原创 Spark官方文档学习笔记
总览(Overview)从系统的高层讲,每一个Spark应用程序都包含着一个驱动程序,驱动程序执行用户的main方法和执行在集群上的不同的parallel操作。Spark提供的一个主要的抽象是RDD(弹性分布式集合, resilient distributed dataset)。RDD是多个可在集群中分片的元素的集合。因此,它们可以被并行操作。RDD的创建可以是由HDFS中的一个文件开始创...
2018-08-04 17:27:51 1571
原创 Win7下使用idea远程调试运行在虚拟机上spark-hadoop集群
环境准备1.已在虚拟机上上搭建好集群环境,jps显示正确。 2.idea已配置好scala插件 3.hadoop版本为2.6.5,spark版本为2.2.0,scala版本为2.11.0开始配置本人第一次配置环境时遇到了非常多的坑,最后采取建立scala项目而不是maven项目的方法解决(也许maven项目依旧可以运行) 1.idea新建scala项目,可以不选择scala ...
2018-08-03 20:10:07 1444 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人