前期看这方面的论文,感觉业界主要使用方案:
1、基于Hadoop的云平台分析架构(Mapreduce+Hbase);这方面主要在Mapreduce上做并行分布式处理;典型的论文有“2009VLDB-MAD Skills New Analysis Practices for Big Data”、“2011CIDR-Starfish A Self tuning System for Big Data Analytics”、“2012VLDB-MapReduce Algorithms for Big Data Analysis”、“12VLDB-The HaLoop approach to large-scale iterative data analysis”、“2010VLDB-Dremel Interactive Analysis of WebScale”,这些google里很好下的;
2、基于知识网格和列存储为主要框架的,以brighthouse为主要代表的,典型的有“2010-ICGC-Infobright – Analytic Database Engine using Rough Sets & Granular Computing”、“2011-SOCC-DOT A Matrix Model for Analyzing,Optimizing and Deploying Software for Big Data Analytics in Distributed Systems”、“2011VLDB-Column Oriented Storage Techniques for MapReduce”、“2012VLDB-The Vertica Analytic Database CStore”;
3、美国一家Hilbert公司,采用Hilbert和网格计算的方式,完成大数据存储与分析,他们用了Hilbert,是巧合,还是有意?这个是否值得我们跟进呢?可惜的是他们居然做成了产业,可见已经研究很深入了,不知道他们到了哪一步?仅从他们公司的文档中,发现不了太多的东西。
4、看了很多大数据分析的,大都是建立在云平台上的,为什么美国人把云数据改叫成大数据了呢,难道只是量变大了么,大数据的到底还有什么不同呢?量无限大、高速增长、类型多、边界不清?