大数据学习
student__software
这个作者很懒,什么都没留下…
展开
-
Flume简述和架构
一、Flume概念Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单,特点就是实时,有缓存,快速,相比较于普通的API上传到hdfs,flume会更快,所以,flume是非常好用的传输层系统。二、 Flume组成架构中间的三个source,sink和channel是flume的核心,channel就是f...原创 2018-08-03 20:18:35 · 1507 阅读 · 0 评论 -
Zookeeper集群搭建
1.集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。2.解压安装1)解压zookeeper安装包到/opt/module/目录下 tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/(2)在/opt/module/zookeeper-3.4.10/这个目录下创建zkData...原创 2018-08-07 19:11:49 · 263 阅读 · 0 评论 -
Kafka简介和架构
一、简介Kafka是一个分布式消息队列。★Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。无论是kafka集群,还是consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性。二、优点(相比较于Flume)在企业中...原创 2018-08-07 19:02:21 · 20742 阅读 · 0 评论 -
Flume与kafka集成
配置flume(flume-kafka.conf):这里采用一个source和一个sink的配置,当然可以配置成多个source# definea1.sources = r1a1.sinks = k1a1.channels = c1# source:指定监控的日志文件a1.sources.r1.type = execa1.sources.r1.command = tail -F...原创 2018-08-07 18:51:24 · 1082 阅读 · 0 评论 -
Hadoop群起脚本和Zookeeper群起脚本
注意配置/home/atguigu目录下的(.bashrc)文件,在其中配置JAVA_HOME,并source /home/atguigu/.bashrc脚本如下jps:#!/bin/bashfor i in atguigu@hadoop102 atguigu@hadoop103 atguigu@hadoop104do echo "================ ...原创 2018-08-06 19:58:39 · 3638 阅读 · 1 评论 -
打包插件(带依赖)----pom文件
记得两点:一是在依赖的包pom文件中加入<scope>provied</scope> 二是在下面pom改全类名点击package就会生成两个jar,一个带依赖,一个不带<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</...原创 2018-08-04 11:29:57 · 2161 阅读 · 0 评论 -
Flume配置文件总结
无论是怎么配置在开头出都要进行命名组件命名一:单个source和sink用这个# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1组件命名二:单个source,多个sink用这个,当然有副本和负载均衡等模式# Name the components on thi...原创 2018-08-04 10:41:07 · 5598 阅读 · 1 评论 -
Flume拓扑结构之---------负载均衡模式
一、案例需求使用flume-1监控文件变动,flume-1将变动内容传递给flume-2,flume-2负责将数据打印到控制台。同时flume-1将变动内容传递给flume-3,flume-3也负责将数据打印到控制台二、配置文件配置1个接收日志文件的source和1个channel、两个sink,分别输送给flume-flume1和flume-flume2。1、一个chan...原创 2018-08-03 21:31:10 · 1724 阅读 · 0 评论 -
Flume拓扑结构之--------Channel多副本模式结合Avro
一、需求使用flume-1监控文件变动,flume-1将变动内容传递给flume-2,flume-2负责存储到HDFS。同时flume-1将变动内容传递给flume-3,flume-3负责输出到local filesystem。看此图基本上就能写出来配置文件,在结合官方文档配置1个接收日志文件的source和两个channel、两个sink,分别输送给flume-flume-hdf...原创 2018-08-03 21:22:02 · 504 阅读 · 0 评论 -
Flume监控文件夹
一、需求分析使用flume监听整个目录的文件二、上传jar包,具体步骤见上一篇https://blog.csdn.net/student__software/article/details/81394222三、配置文件1、创建:$ touch flume-dir-hdfs.conf2、编辑内容:解析重要内容:①文件夹的source类型是spooldir ,具体配置在文档...原创 2018-08-03 21:08:48 · 4046 阅读 · 0 评论 -
Flume实现读取文件
一、需求分析二、上传jar包因为本案例要读到hdfs里,所以,就要hadoop相关jar包支持。将commons-configuration-1.6.jar、hadoop-auth-2.7.2.jar、hadoop-common-2.7.2.jar、hadoop-hdfs-2.7.2.jar、commons-io-2.4.jar、htrace-core-3.1.0-incubati...原创 2018-08-03 20:58:35 · 3834 阅读 · 0 评论 -
Flume安装部署和第一个官方案例
一、安装和部署1、Flume安装地址1) Flume官网地址http://flume.apache.org/2)文档查看地址http://flume.apache.org/FlumeUserGuide.html2、安装部署-----其实这一步实际上安装这个flume程序,真正想运行还得配置文件1)apache-flume-1.7.0-bin.tar.gz上传到linux...原创 2018-08-03 20:45:35 · 534 阅读 · 0 评论 -
Flume拓扑结构
Flume的拓扑结构有以下四种一、点对点这种是最简单的方式,两个flume,一个的sink是另一个的source,这种结构有点像链式结构,后面还可以接着加节点二、多副本结构这种结构特点: 一个source,多个channel,而多个channel是同一内容,只不过后面的sink不同,这种场景比如,读取一个日志文件,一份要交给hadoop离线处理,一份相同的交给spark实时...原创 2018-08-03 20:30:10 · 1552 阅读 · 0 评论 -
Kafka集群部署及命令行操作
前提是:zookeeper集群已经搭建完毕具体步骤见:https://blog.csdn.net/student__software/article/details/814867691、集群规划hadoop102 hadoop103 hadoop104zk ...原创 2018-08-07 19:18:27 · 3510 阅读 · 0 评论