奔放小现实-CSDN博客

原创 Flume快速入门

下面我们来详细介绍一下Flume架构中的组件。1.2.1 AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的，是Flume数据传输的基本单元。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2 SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thr...

2018-09-20 23:14:32 393 1

原创 FLume数据采集到kafka

3.2.1 数据采集思路：a) 配置kafka，启动zookeeper和kafka集群；b) 创建kafka主题；c) 启动kafka控制台消费者（此消费者只用于测试使用）；d) 配置flume，监控日志文件；e) 启动flume监控任务；f) 运行日志生产脚本；g) 观察测试。1）启动zookeeper，kafka集群$/opt/module/kafka/bin/kafka-...

2018-09-20 22:51:50 961

10.1 Sqoop概述Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存...

2018-09-20 22:39:33 568

转载 hive安装测试及Hive 元数据的三种存储方式

一 hive安装测试1、下载解压tar -xf hive-x.y.z.tar.gz（本次安装为hive-0.8.1.tar.gz）将解压后的hive-0.8.1文件放在系统的/home/hadooptest/中。 2、环境变量配置在.bash_profile中添加： export HIVE_HOME=/home/hadooptest/hive-0.8.1 export PA...

2018-05-30 16:34:34 3464

转载 ZooKeeper

2.1 请简述ZooKeeper的选举机制假设有五台服务器组成的zookeeper集群，它们的id从1-5，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这一点上，都是一样的。假设这些服务器依序启动，来看看会发生什么。（1）服务器1启动，此时只有它一台服务器启动了，它发出去的报没有任何响应，所以它的选举状态一直是LOOKING状态。（2）服务器2启动，它与最开始启动的服务器1...

2018-05-29 19:41:23 287

原创 hadoop,zookeeper,hive,hbase对比总结

1.Hadoop是是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈。 Hadoop的优势： 1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或...

2018-05-25 21:09:59 1240

原创小花第一集~

Java SEday1 JDK：Java development kit [ Java开发必备] JRE：Java runtime environment [Java执行环境] so~JDK包含了JRE 1、所有的Java代码，其后缀都是以java结尾。 2、Java程序的执行过程分为两步： 1. 编译 2. 执行 3、Class文件是字节码文件，程序最

2016-01-19 22:28:07 474

Alisa_MI的博客