本文的其它章节:
漫谈大数据仓库与挖掘系统(三):ETL的开始——数据的传输和同步
首先,笔者需要告诉大家,数据有什么价值。很多人可能认为,数据只是一堆数字,是没什么价值的。其实这些人很可能早已可能享受到数据的红利。例如早在2006年中旬上线的百度指数(index.baidu.com),其实就是一个基于大数据的数据产品的雏形,但是还不能说是完整的大数据产品(后文中我们会去解释为什么)。百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度,它能形象地反映该关键词的每天的变化趋势,以及显示这些搜索的地区分布和简单的人群属性。百度指数的数据被大量的用作针对百度甚至其它一些搜索引擎的SEO的参照,也经常被一些研究公司、学者引用作为一些研究报告的参考数据。
在百度指数之后,阿里巴巴集团亦推出了淘宝指