Hadoop BI Architecture

(转自:http://jason204.iteye.com/blog/1451036)

 1

.Hadoop 与BI

 

  2009年,Cloudera发表Analyzing Apache logs with Pig文章[7]。
  2010年,Cloudera发表Hadoop与BI思考的文章,给出了When/How to integrate Hadoop with BI的5条建议[6]。  
  2011年8月,CACM发表了BI综述文章[1],总结了BI的组成部分和关键技术,面临大数据的挑战,提出了最新的BI架构,见图1。
  

  
  
  
  Figure 1:BI Architecture
  
  本文只针对MapReduce Engine部分做相关讨论,后续会对Complex Event Processsing Engine、Text Analytic Engine、Enterprise Search Engine(BI Search)做一些分析。
  
  2.什么是Hadoop?
  
  Hadoop开源软件支持在普通PC集群上进行可靠的,伸缩性的,分布式的计算处理,可以处理TB级甚至PB级的非结构化和结构化数据,将大工作量分解成集群中各个普通机上更小的数据块,以达到更快地处理的效果。Hadoop是相关技术的框架集合——HDFS、HBase、Cassandra、Hive、Pig、ZooKeeper、Mahout、Hcatalog、Hue,详见图2。
  
    
  
 
  Figure 2:Cloudera Hadoop Ecosystem[2]
  
  3. Two Distinct Hadoop Use cases
  
  现在,Hadoop用于两个不同用例(Use Case)[3][4](见图3),其中涉及Hadoop技术见图4。  
  Data Processing: Hadoop ETL功能,包括预处理,过滤,转换,通过Pig/Hive/Oozie/Sqoop等工具实现。
  Advanced Analytics:大规模的Events日志数据或Content分析处理, 包括Data Mining功能,例如call records, behavioral analysis, social network analysis, clickstream data,next-best action, customer experience optimization, social media analytics等 [5], 通过Mahout来实现。
    
  
    Figure 3:Two Core Use Cases Common Across Many Industries
  

  
 
 
  Figure 4:Data Processing and Advanced Analytics Tools[4]
  
  4.Hadoop BI architecture
  
  从Cloudera的观点(图5),Hadoop扮演了ETL和BI Analytics双重角色,其中ETL包括对结构化和非结构化的数据处理(是否用hadoop处理结构化的数据,视情况而定)。Hadoop  BI Architecture可参考图6。
  


 
 
  Figure 5:Where Does Hadoop Fit in  the Enterprise DataStack?[2]
  
  

  
  Figure 6:Business  Intelligence After Adopting Apache Hadoop[2]
  

  5 结论

 

  本文讨论了BI with Hadoop的架构,Hadoop丰富了BI的ETL(Data Processing)和Data Mining(Advanced Analytics)功能。但是现在大数据处理平台也体现多样化,例如MongoDB,Cassandra等NoSQL平台,Aster/ Greenplum/Oracle等Vendor的MapReduce应用产品,私有云/共有云/混合云等等,将来的云BI 会怎样呢?架构又是如何呢?以后再做详细分析。


  Reference:    

[1] An Overview of Business Intelligence Technology

[2] How Apache Hadoop is Revolutionizing Business Intelligence and Data Analytics

[3] Hadoop Applied

[4] Hadoop, Big Data, and Enterprise Business Intelligence

[5] 10 Common Hadoop-able Problems

[6] Considerations for Hadoop and BI

[7] Analyzing Apache logs with Pig

  

       Updated on 2012/03/14

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值