来自如谷歌和雅虎这样的公司的顶尖的科学家,和高级学者们一起齐聚在本周在圣地亚哥举行的第17次计算机械协会(ACM)的知识发现和数据挖掘(KDD)会议上。他们将要展示从当下产生的铺天盖地的数据中寻找洞察力的最新技术,并使各种各样形式的信息变得比以往任何时候都更有意义。
二十年前,关心所谓的“大数据”的人只是一些科学团体的成员 — 只有他们有大量的数据集和有动机试图处理这些数据,计算机械协会(ACM)在知识发现和数据挖掘方面的特殊利益集团执行主席和雅虎前任的首席数据官Usama Fayyad说。即使在那时,数据挖掘的结果也是引人注目的。“我们能够解决重大科学问题,立于这个领域30多年,” Fayyad说。
然而,互联网的爆炸性增长改变了一切。不管喜欢与否,企业发现他们自己在线运营并且积累了大量有关顾客和他们的行为的数据。Fayyad说,数据挖掘的力量变得清晰,投资在这个领域的经济动机也同样变得清晰。
例如, Netflix,对可能挖掘出有关它的用户信息的任何团队提供了一笔100万美元的奖金,并建立了一个比它已有的一个建议系统更为精确的系统。像这样备受瞩目的例子只触及了数据挖掘应用系统的表面。
“企业和产业越来越有兴趣利用他们通过业务流程获得的数据,” IBM的分析研究主任和大会主席Chid Apte说。他特别指出了医疗保健、社交媒体和任何发生在网站上的事情。
目前,互联网巨头从他们收集的用户信息和他们通过对其挖掘获得的洞察力上赚钱。零售商可以访问复杂的购物者行为模式来帮助他们更有利地对商店进货。产业研究人员能基于交流拥堵、天气、一年之间的时间段来预测汽车的交通模式,并提供优质的路线。
然而,当今的数据,不需以常见的数据库的形式而存在。“信息不是以一种清晰的表格形式出现在你面前,”Apte说。“它以一种网络的形式出现在你面前。”他解释道,数据经常以一种图形形式出现,就像在社交媒体上使用的信息。这些图形常常记录的不仅是节点之间复杂的连接关系,还有其他类型的多元化格式的信息,例如视频、图片和人们贴在社交网络上的评论。
Apte说,社交媒体可能已开始趋于对这样图形的分析,但是网络数据也可以来自其他数据源 — 例如,来自诸如电网、配水系统、交通管理系统这样一些复杂的工程系统。这些系统中的分布式传感器网络产生的数据集,在其中位置之间的连接与社交网络中人与人之间的友好关系一样的重要。理解这些连接是优化系统和使他们得以持续的关键,Apte说。
人们和图形数据打交道已有数百年,但目前来自于社交网络或传感器网络规模的图形规模空前,Apte说。“这些是庞大的图形,”他说。“你正在谈论数以万计的节点和数以千万计的链接。”
要处理这种规模和范围的图形,并且对它们运用现代分析工具,就要求更好的算法与其他创新。Apte说,大会的目标之一就是为有意向的企业带来学术界和产业界研究实验室的顶尖技术,这样他们可以更快地应用它们。同时,会议的组织者们希望,学者们将感知到大多数极其需要被考虑到的业务挑战。
Fayyad说数据中的强大商业利益已经改变了数据挖掘的领域。他说,科学家主要处理整齐的,结构形式存储的数据。但大多数企业产生的数据是一种混乱的非结构化的形式。
“当科学家们正很好地避免了那些混乱无结构的数据时,企业却被迫与它们正面交锋,” Fayyad说。“这驱使企业开始开发没有人尝试过的技术。”
当然,挑战依然存在,但是Fayyad说:“人们可以想出更多的预测模型,而且更重要的是评价他们以确定他们工作的如何……它将分析带入到一种真正超越人类大脑理解能力的水平上。”