storm
康康的博客
摸鱼小能手
展开
-
storm启动报错
could not found expected ':' in 'reader', line 25, column 1: storm.zookeeper.port:2181Caused by: while scanning a simple key in 'reader', line 30, column 2: storm.local.dir:"/var/storm" ^could...原创 2018-03-10 22:39:39 · 944 阅读 · 0 评论 -
java系统跟大数据技术的关系
java系统跟大数据技术的关系(1)大数据不仅仅只是大数据工程师要关注的东西(2)大数据也是Java程序员在构建各类系统的时候一种全新的思维,以及架构理念,比如Storm,Hive,Spark,ZooKeeper,HBase,Elasticsearch,等等(3)举例说明storm:实时缓存热点数据统计->缓存预热->缓存热点数据自动降级Hive:Hadoop生态栈里面,做数据仓库的一...转载 2018-03-10 22:45:07 · 644 阅读 · 0 评论 -
7.storm集群作业提交和打包
一 、将eclipse中的工程,进行打包丢到服务器(1).在maven工程pom.xml中加入(在服务器storm集群运行) <scope>provided</scope> 即 <dependency> <groupId>org.apache.storm</groupId> <artifactId>storm-c...原创 2018-03-10 22:43:47 · 1546 阅读 · 0 评论 -
6.storm集群部署
部署一个storm集群(1)安装Java 7和Pythong 2.6.6(2)下载storm安装包,解压缩,重命名,配置环境变量 tar -xzvf apache-storm-1.1.0.tar.gz rm -rf apache-storm-1.1.0.tar.gz mv apache-storm-1.1.0.tar.gz storm-1 vi /etc/profile ...原创 2018-03-10 22:42:46 · 234 阅读 · 0 评论 -
5.storm在java开发
1.pom.xml添加相应的依赖,mainClass标签中填写主类全路径 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.6原创 2018-03-10 22:42:22 · 659 阅读 · 0 评论 -
4.Storm的并行度以及流分组
并行度:Worker->Executor->Task,准确来说是Task,不是Executor,虽然默认情况下Executor只有一个Task,Executor数量和task一样 流分组:Task与Task之间的数据流向关系Shuffle Grouping:随机发射,负载均衡Fields Grouping:根据某一个,或者某些个,fields,进行分组,那一个或者多个fields如果值...转载 2018-03-10 22:41:59 · 190 阅读 · 0 评论 -
3.Storm的集群架构以及核心概念
Storm的集群架构以及核心概念1、Storm的集群架构Nimbus,Supervisor,ZooKeeper,Worker,Executor,Task2、Storm的核心概念Topology,Spout,Bolt,Tuple,StreamSpout:数据源的一个代码组件,就是我们可以实现一个spout接口,写一个java类,在这个spout代码中,我们可以自己尝试去数据源获取数据,比如说从kaf...转载 2018-03-10 22:41:33 · 274 阅读 · 0 评论 -
2.storm简介
一、Storm到底是什么? Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。它很简单,您可以并行地对实时数据执行各种操作二、Apache Storm vs Hadoop基本上Hadoop和Storm框架用于分...原创 2018-03-10 22:40:40 · 219 阅读 · 0 评论 -
1.缓存架构和storm的关系
缓存架构和storm的关系 有些热点数据相关的一些实时处理的一些方案,比如快速预热,热点数据的实时感知和快速降级,全部要用到storm 因为我们可能需要实时的去计算出热点缓存数据,实时计算,亿级流量,高并发,大量的请求过来 这个时候,你要做一些实时的计算,那么必须涉及到分布式的一些技术,分布式的技术,才能处理高并发,大量的请求 目前在时候计算的领域,最成熟的大数据的技术,就是storm ...转载 2018-03-10 22:40:10 · 287 阅读 · 0 评论 -
高并发场景下的缓存+数据库双写不一致问题分析与解决方案
1、最初级的缓存不一致问题以及解决方案 问题: 先修改数据库,再删除缓存,如果删除缓存失败了,那么会导致数据库中是新数据,缓存中是旧数据,数据出现不一致。 解决思路: 先删除缓存,再修改数据库,如果删除缓存成功了,如果修改数据库失败了,那么数据库中是旧数据,缓存中是空的,那么数据不会不一致。因为读的时候缓存没有,则读数据库中旧数据,然后更新到缓存中2、比较复杂的数据不一致问题分析 过程: 有...原创 2018-03-11 20:06:11 · 3774 阅读 · 0 评论