大数据流式计算第一课---从Storm开始

最新推荐文章于 2023-12-04 23:22:25 发布

VIP文章 Neo爱吃海苔

最新推荐文章于 2023-12-04 23:22:25 发布

阅读量1k

点赞数

文章标签：大数据 storm 流式计算 big data

本文链接：https://blog.csdn.net/qq_28666193/article/details/53054670

版权

大数据流式计算第一课—从Storm开始

## **前言** ##

大数据（Big Data）又称为巨量资料，指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出，指不用随机分析法（抽样调查）的捷径，而是采用所有数据进行分析处理。大数据有4V特点，即Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）——来自互动百科

   这几天在老师指导下，开始对大数据流式计算进行初步接触了。因为结合着目前大数据发展方向以及常见问题，选择了研究大数据分布式计算中的实时数据处理方面的内容，有别于基于Hadoop等引领的大数据批量计算，在此主要应用Storm来分析其不能解决的流式计算问题（主要考虑数据的实时性问题）。
   流式大数据的主要特征有：
         - 实时性
         - 易失性
         - 无序性
         - 突发性
         - 无限性
   普遍的研究问题无非是，找到一个“低延迟、高吞吐、持续稳定性、弹性可伸缩”的理想模型，在这个基础上优化各层结构或者算法实现，来实现正确或者是说更加优化的、合理的流式计算结果。当然，大数据分析计算本来就是通过分析和计算数据，获取大数据得来的价值所在。
   Storm采用主从式的系统架构，是一个免费开源、分布式、高容错的实时计算系统。介绍可参考：[参考](http://xiaoxin2009.github.io/storm--%E6%9C%80%E7%81%AB%E7%9A%84%E6%B5%81%E5%BC%8F%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F.html%20%E2%80%9C%E5%8F%82%E8%80%83%E2%80%9D)

## Storm 环境搭建##

    在了解了基本的Storm系统结构及其组件后，我花了几天时间反复在自己的PC机上倒腾，最后总算勉强搭建好了Storm的基本环境了。Storm系统涉及到本地和集群模式，这里是安装本地示例（单机版）。
    首先我的电脑是win10系统，而由于前期学习开发Android及Java等，配置好了java环境。当时的jdk版本为1.8版本的，而后来在网上各种博客或者网站上逛完之后，发现Storm环境很有可能不兼容jdk1.8及以上的，只有1.7（含）版本以下才可。老师一开始告诉说，我也发现现在Storm集群环境基本上是全平台兼容的，但无奈Windows环境的各种环境变量太过麻烦，尝试过多次之后选择了在虚拟机中Linux系统中搭载该环境了

最低0.47元/天解锁文章

Neo爱吃海苔

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据流式计算第一课---从Storm开始

大数据流式计算第一课—从Storm开始## **前言** ## 大数据（Big Data）又称为巨量资料，指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出，指不用随机分析法（抽样调查）的捷径，而是采用所有数据进行分析处理。大数据有4V特点，即Volume（大量）
复制链接

扫一扫