大数据流式计算第一课---从Storm开始

大数据流式计算第一课—从Storm开始

## **前言** ##    

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)——来自互动百科

   这几天在老师指导下,开始对大数据流式计算进行初步接触了。因为结合着目前大数据发展方向以及常见问题,选择了研究大数据分布式计算中的实时数据处理方面的内容,有别于基于Hadoop等引领的大数据批量计算,在此主要应用Storm来分析其不能解决的流式计算问题(主要考虑数据的实时性问题)。
   流式大数据的主要特征有:
         - 实时性
         - 易失性
         - 无序性
         - 突发性
         - 无限性
   普遍的研究问题无非是,找到一个“低延迟、高吞吐、持续稳定性、弹性可伸缩”的理想模型,在这个基础上优化各层结构或者算法实现,来实现正确或者是说更加优化的、合理的流式计算结果。当然,大数据分析计算本来就是通过分析和计算数据,获取大数据得来的价值所在。
   Storm采用主从式的系统架构,是一个免费开源、分布式、高容错的实时计算系统。介绍可参考:[参考](http://xiaoxin2009.github.io/storm--%E6%9C%80%E7%81%AB%E7%9A%84%E6%B5%81%E5%BC%8F%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F.html%20%E2%80%9C%E5%8F%82%E8%80%83%E2%80%9D)

## Storm 环境搭建##

    在了解了基本的Storm系统结构及其组件后,我花了几天时间反复在自己的PC机上倒腾,最后总算勉强搭建好了Storm的基本环境了。Storm系统涉及到本地和集群模式,这里是安装本地示例(单机版)。
    首先我的电脑是win10系统,而由于前期学习开发Android及Java等,配置好了java环境。当时的jdk版本为1.8版本的,而后来在网上各种博客或者网站上逛完之后,发现Storm环境很有可能不兼容jdk1.8及以上的,只有1.7(含)版本以下才可。老师一开始告诉说,我也发现现在Storm集群环境基本上是全平台兼容的,但无奈Windows环境的各种环境变量太过麻烦,尝试过多次之后选择了在虚拟机中Linux系统中搭载该环境了
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值