关闭

大数据学习(一):实时处理环境搭建

标签: 大数据hadoopstorm
1629人阅读 评论(0) 收藏 举报
分类:

概述

为了实现搭建一套初步学习大数据实时分析的平台,用了5台linux虚拟机(Centos 7),安装 的组件包括:
- FlumeNG:数据采集
- kafka集群:数据统一接入
- Storm集群:数据实时处理
- hadoop集群:这里只是用了其中HDFS组件来做数据存储
整个实时处理框架如下:
实时处理框架
本人自己搭建环境的节点分布如下:

服务 节点
Hadoop集群 172.16.100.78(NameNode),172.16.100.79(DataNode),172.16.100.12(DataNode)
Zookeeper集群 172.16.100.12 172.16.100.13, 172.16.100.14
Kafka集群 172.16.100.12, 172.16.100.13, 172.16.100.14
Storm集群 172.16.100.12(nimbus), 172.16.100.13(supervisor), 172.16.100.14(supervisor)
FlumeNG 根据需要装在需要采集日志的应用服务器节点(172.16.100.12)

本文就主要组件的配置进行详细说明:

zookeeper集群安装:

关于zk的分布式部署网上有很多参考资料这里不赘述,只给出自己的配置文件(zoo.cfg)供参考:
zoo.cfg
其中zk01,zk02,zk03分别对应172.16.100.12, 172.16.100.13, 172.16.100.14(在/etc/hosts中配置)
之后在zk01, zk02, zk03上分别使用zkServer.sh start启动zookeeper,若遇到以下问题:
zk启动失败
原因在于没有关闭防火墙,需要根据操作系统的版本使用相应的命令关闭防火墙,对于Centos 7 可使用如下命令:
systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动

kafka集群安装

  1. 安装配置参考网上链接(http://www.tuicool.com/articles/BNR3Ur)
  2. 在集群的各个主机上后台启动kafka
    kafka-server-start.sh -daemon /opt/kafka/kafka_2.11-0.10.0.1/config/server.properties
  3. 创建一个Topic,5个分区,并且复制因子为3
    kafka-topics.sh –create –zookeeper zk01:2181,zk02:2181,zk03:2181 –replication-factor 3 –partitions 5 –topic test-topic
  4. 查看创建的topic详情
    kafka-topics.sh –describe –zookeeper zk01:2181,zk02:2181,zk03:2181 –topic test-topic

【可选】安装kafka监控软件:KafkaOffsetMonitor

  1. 下载KafkaOffsetMonitor-assembly-0.2.0.jar
  2. 编写启动脚本monitor_start.sh如下:
    monitor_start.sh
  3. 运行monitor_start.sh启动KafkaOffsetMonitor ,可通过所在服务器的8089端口监控kafka的运行状况
    KafkaOffsetMonitor

Storm集群安装

  1. 安装配置参考网上链接
  2. 配置storm.yaml如下,其中zk01作为Storm集群的nimbus节点,zk02和zk03为supervisor节点
    storm.yaml
  3. 在zk01上启动主节点和UI页面
    storm nimbus &
    storm ui &
    则可以通过zk01节点的9090端口查看storm集群的配置及运行情况
  4. 在zk02和zk03上分别运行从节点
    storm supervisor &

flume安装配置

  1. 在一台应用服务器(zk01)上安装flume
  2. 配置flume-conf.properties如下:
    flume-conf
    其中各个配置字段的含义将在下一篇数据采集中详细讲解
  3. 启动flume
    ./flume-ng agent –conf-file ../conf/flume-conf.properties –name agent -Dflume.monitoring.type=http -Dflume.monitoring.port=34545

至此整个实时处理的测试环境已搭建完毕,下一篇将重点介绍数据采集的相关内容

2
0
查看评论

大数据集群环境搭建

本文基于最新版本的jdk、hadoop、hive、spark、storm、hbase等构件大数据集群环境
  • sdy1985
  • sdy1985
  • 2016-07-28 14:44
  • 6942

大数据环境搭建

原文:https://yq.aliyun.com/articles/180359?utm_content=m_29440 由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体...
  • Dzq_Boyka
  • Dzq_Boyka
  • 2017-08-29 16:18
  • 241

大数据环境搭建

1. 准备环境 1.1. 安装包 1)安装虚拟机:VirtualBox-4.2.4-81684-Win.exe 2)安装配置Linux系统:CentOS-7.0-1406-x86_64-DVD.iso 3)安装配置Java环境:jdk-8u25-linux-x64.tar...
  • zjfjifei2008
  • zjfjifei2008
  • 2015-01-14 19:47
  • 674

大数据,环境搭建,基础;

hbase 单机搭建环境
  • jinxuezhe
  • jinxuezhe
  • 2016-05-21 09:15
  • 464

大数据学习系列之一 ----- Hadoop环境搭建(单机)

一、环境选择1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ip:39.108.77.250 2,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz) H...
  • qazwsxpcm
  • qazwsxpcm
  • 2017-11-26 16:18
  • 960

关于部署大数据开发环境的几个笔记

大数据spark开发环境搭建
  • chao_ggggg
  • chao_ggggg
  • 2016-09-09 10:03
  • 1281

大数据伪分布式环境搭建hadoop+zookeeper+hive+sqoop+hbase

最近开始学习大数据,自己在虚拟机中搭建了一套环境,因为参考的博客写的很详细,自己不再重写,只给出链接:http://blog.csdn.net/pucao_cug?viewmode=contents 自己在搭建过程中,出的一些问题: 1.配置authorized_keys文件  ...
  • Linzhongyilisha
  • Linzhongyilisha
  • 2017-08-19 16:54
  • 505

大数据CDH5环境搭建

CDH5.x大数据环境搭建详细步骤。
  • Elonyong
  • Elonyong
  • 2017-10-25 16:54
  • 304

初学大数据之环境搭建

本地安装Hadoop 实验目的: 在Linux操作系统下,安装Hadoop 在Linux里安装SUN JDK1.7 系统环境: 发行版本:Ubuntu 15.10 Hadoop版本:Hadoop-1.0.4 1.     配置ssh无密码登...
  • sinat_26983515
  • sinat_26983515
  • 2016-11-27 20:36
  • 500

搭建Hadoop大数据处理-环境

由于hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍。 VMware的安装,装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机,省时省力...
  • guangyinglanshan
  • guangyinglanshan
  • 2018-01-16 14:55
  • 35
    个人资料
    • 访问:17386次
    • 积分:323
    • 等级:
    • 排名:千里之外
    • 原创:14篇
    • 转载:0篇
    • 译文:0篇
    • 评论:5条
    文章分类
    最新评论