运维-大数据
文章平均质量分 76
gohigher2018
这个作者很懒,什么都没留下…
展开
-
Storm概要
一、术语Nimbus :storm集群主节点。负责资源分配和任务调度 supervisor:工作节点,接受nimbus分配任务,管理worker woker:supervisor下面的工作进程,具体任务执行 topology:计算拓扑,由spout和bolt组成的图状结构 spout:storm编程中的消息源 bolt:storm编程中的处理组件 stream:拓扑中的消息流,传输...原创 2018-05-20 16:08:31 · 246 阅读 · 0 评论 -
Windows本机搭建kafka+storm环境
一、启动ZK 从c到d盘 cd D:\storm\zookeeper-3.3.6\bin zkServer.cmd 可见, 二、搭建Stormcd D:\storm\storm-0.9.1-incubating-SNAPSHOT-12182013\storm-0.9.1-incubating-SNAPSHOT-12182013\bin这里这个可以写在环境变量里面 计...原创 2018-05-20 16:23:16 · 731 阅读 · 0 评论 -
Storm基本命令
1、启动ZOOPKEEPER zkServer.sh start2、启动NIMBUS storm nimbus &3、启动SUPERVISOR storm supervisor &4、启动UI storm ui &5、部署TOPOLOGY storm jar /opt/hadoop/loganalyst/storm-dependend/data/t...转载 2018-05-20 16:31:17 · 2032 阅读 · 0 评论 -
Hadoop2 学习笔记(有部分Hadoop1内容)
概述Hadoop的两个核心组成部分:1)分布式文件系统-HDFS;2)分布式数据处理架构-MapReduce。MR功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库。1)HDFS HDFS没有改变,仅有删除原有的再加新的,有时间戳。 在一版本中,一个集群中仅有一个NameNode。一个集群中仅有一个Secondary...原创 2018-05-20 17:34:46 · 824 阅读 · 0 评论 -
Storm多线程
影响Storm性能的因素1、worker和slot的关系是一一对应的,一个worker占用一个slot。计算集群worker和slot数量一般以每个服务器的CPU线程数来计算。 如上面的环境就是 worker、slot:144 (6个supervisor,每个supervisor 都是24线程的CPU,24*6=144) 2、spout并发数,也就是setSpout后面的参数10——bu...转载 2018-05-20 17:45:32 · 1437 阅读 · 0 评论 -
Storm安装、部署
1、安装zk分别安装三台机器,之后 配置环境变量: export ZOOKEEPER_HOME=*/zookeeper-3.4.6 export PATH=$ZOOKEEPER_HOME/bin:$PATH启动zk zkServer.sh start2、安装python、java环境1)jdk安装,配置环境变量: export JAVA_HOME=…./jdk1.7.0_...原创 2018-05-20 17:48:22 · 168 阅读 · 0 评论 -
Kafka学习(概念+搭建)
初认识特点:高水平扩展、高吞吐。消息中间件。不支持事务(AMQ可支持)。支持动态扩容(通过zookeeper实现)。 协议:AMQP协议 结构:producer--broker--cosumer topic partition:一个topic中的消息数据按照多个分区组织,分区时kafka消息队列组织的最小单位,一个分区可以看作是一个FIFO的队列...原创 2018-05-20 17:55:46 · 188 阅读 · 0 评论 -
python实现storm读取kafka数据
环境准备1、kafka、zk 2、安装storm 修改conf/storm.yaml,有笔记。 这个配置文件,空格 对齐 很重要 启动stormbin/storm nimbus【仅一台】 storm nimbus >/dev/null 2>&1 &bin/storm supervisor storm supervisor >/dev...原创 2018-05-20 18:12:55 · 3641 阅读 · 1 评论 -
大数据平台迁移相关
一、zk法一:扩展zk节点 法二:zkcopy。若数据一直在变,那么有可能要停集群。分钟级别可接受二、hdfshadoop自带的远程拷贝工具,distcp。一个map处理一个文件。可指定map数量。可事务也可非事务。 一般会执行两边,第二遍加-update,再合适一遍(ok就skip)。 是否同步权限也可设置 不能在线做三、hbasereplication:灾备,备...原创 2018-05-20 18:18:52 · 1002 阅读 · 0 评论