许多公司都在为管理海量数据不断努力。以前,他们都使用数据仓库平台,用这种传统架构在处理来自内部和外部数据源的数据时有很大困难,这些数据的结构和内容类型通常非常多样化,但Hadoop可以对此场景提供帮助。Hadoop是一款分布式处理架构,专门用来处理复杂的海量大数据,处理结构化、非结构化和半结构化数据混杂的场景。
Hadoop的部分优势在于,它有许多种开源组件和相关工具,可以完成数据捕获、处理、管理和分析工作。为了帮助用户利用好该框架,许多供应商提供了商业版Hadoop分布式产品,它们在Hadoop基础之上提供了性能和功能方面的扩展,并提供对该框架的维护和支持服务。
Hadoop分布式应用的案例场景
Hadoop运行在商用服务器集群环境中,这种环境通常用来支持数据分析而不是联机事务处理应用。有几种更加通用的分析应用案例可以很好地展示Hadoop分布式数据处理和并行计算模型:
业务智能应用要从事务处理系统和组织资产系统中捕获流式数据,监视性能水平,应用预测分析做预备维护或者处理变更。
Web分析本来是为了帮助公司理解站点访问者的在线活动情况,通过检查Web服务器日志来检测系统性能问题,发掘营销信息。
安全和风险管理,例如:运行分析模型把事务数据与欺诈活动模式知识库做比较,利用持续网络安全分析识别新出现的可疑行为。
营销优化,包括利用大量网络点击和在线销售数据,再结合客户档案信息设计形成推荐引擎提供实时产品捆绑销售建议。
物联网应用,例如从制造业设备、管道和所谓智能建筑安置的传感器终端获取数据做分析,这些传感器会持续生成并广播关于状态和性能的信息。
语义分析和品牌保护,可能需要捕获流式社交媒体数据并分析文本,识别出有意见的客户提出的问题并快速解决。
大