大数据从收集、处理、到最终落地为可商业化、可以惠及普罗大众的解决方案、产品的闭环链条。所谓从群众中来,到群众中去。正是这个链条的关闭、完成了大数据的工业化。
之所以大数据概念能够在近3年突然引爆,恰恰就是因为现阶段处理和收集大数据的能力发生了质变,使得人类社会走进了大数据应用普及的时代:
1、大数据的收集
两个技术使得大数据的收集开始变得容易:
各种传感器的廉价化和部署覆盖率的大大提高。比如我们最熟悉的就是遍布身边的摄像头,不到10年的时间,城市里的任何一个角落放眼望去就全部是摄像头了。
互联网技术的发展。其实电脑也是一种传感器,只不过其记录的数据格式更加不规范和多样化。随着互联网技术的大发展,能够接入互联网的终端越来越便宜、在人群中覆盖率不断提高,以致于我们拥有了一个可以覆盖大部分人口的传感器网络。比如我所在的淘宝网,每天有亿级别的用户访问、购物。在传统的工业时代,我们永远无法知道一个人在超市做了什么、也很难分析每个人在超市买了什么东西(尽管你有收银数据)。而在互联网这个每个人都带着传感器的时代、一切行为都可能被记录、分析、用于优化你未来的体验(当然也可能被坏人用于作恶,就好比火药可以用于开山修坝也可用于杀人作恶,技术本身是与道德无关的)。
2、大数据的处理
廉价的并行计算解决方案,如mapreduce框架、MPI框架、GPU计算。新的高性能并行计算方法层出不穷。以往在实验室和国家级项目中才能使用的海量数据存储、计算能力如今可以被以廉价、可扩展、易维护、可租赁(云计算)得方式获得。
像@李搏扬提到的巨型粒子对撞机、实际代表的是大数据的实验室形态,那个时代我们为了做一个大数据分析要首先搭建一个海量传感器集群、然后需要非常懂计算机的人利用很昂贵的计算机集群写一系列很少有人能看懂的(所以几乎没有复用性)代码来进行分析。而这样的分析和实验,只是为了一个或者一系列比较局限的目的和用途。(当然我不是对探