分布式的实时计算框架、偏向于业务逻辑、消息队列的产品、高可用、分布式、可扩展
分布式网站架构
点击流日志收集系统、多个tomcat的日志收集
实时数据产生、实时数据传输、实时数据计算、实时数据存储(redies)、报表展示
1、离线计算是什么?
离线计算:批量获取数据、批量传输数据周期性批量计算数据、数据展示。
代表技术:sqoop批量导入数据、hdfs批量存储数据、MapReduce批量计算数据、Hive批量计算数据、Kettle任务调度
2、流式计算是什么?
流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示
代表技术:Flume 实时获取数据、Kafka实时数据存储、storm/jstorm实时数据计算、redis实时结果缓存。
Storm 安装:
1、下载storm0.95
2、解压
3、修改配置文件storm.yaml
4、修改环境变量
5、将storm 分发到其他服务器
6、安装zookeeper(1-7)
6、配置环境变量
7、分发到各个服务器上、启动:zkServer.sh start 查看zk集群状态:zkServer.sh status
8、开启服务storm:(在zookeeper正确开启的前提下)
注:加nohup ---后台运行,nimbus—任务管理—相当于jobtracker
storm后台管理界面:
nimbus.host:8080—>storm01:8080
常见错误:
1、/etc/hosts文件没有做指定的ip解析
以上述三台服务器为例:我的hosts文件如下
iP1 storm01 zk01
ip2 storm02 zk02
ip3 storm03 zk03
2、以上配置流程是在hadoop以配置完成的前提下进行的。其中已经关闭防火墙,配置jdk等操作已省略如有疑问请移步文章:Hadoop集群搭建。
3、storm.yaml配置文件要注意 :后要加一个空格,否则会报错。
有其他配置上的任何疑问可以留言,谢谢~