一个杰出的专家小组讨论了怎么样用大数据来创造社会资本

最新推荐文章于 2024-09-13 10:10:28 发布

翛云

最新推荐文章于 2024-09-13 10:10:28 发布

阅读量1.3k

点赞数

分类专栏：大数据文章标签： BigData Data 大数据数据预测

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

编辑:Roberto V.Zicari

2012年6月5日

每天，会有250亿字节的数据产生，这些数据来自于数字图片，视频，社交媒体网站文章，智能传感器，交易记录，手机GPS信号，凡此种种，这就是大数据。

围绕着大数据的研究和商业活动都是非常有趣的，根据MGI和麦肯锡商业技术研究室的报告，其预测:”分析大数据将会成为比赛，新浪潮下的生产率增长，创新以及消费者盈余等的关键”

但是很少有人知道怎样运用大数据解决社会问题，很多工作实际上并没有在这个方向上，这是为什么呢？国际研究界能做些什么来确保他们中最有卓见的对社会问题也同样有影响？

我们邀请了一些专家和学者来讨论这个问题，小组成员有:

-罗杰·巴基，微软研究院，Extreme computing小组的领导者，美国

-劳拉·哈斯，IBM成员，大规模数据协会主管，ibm研究院分析学和建模学成员，美国

-阿伦·哈勒威，谷歌研究院结构化数据主要负责人，美国

-保罗·米勒，云数据顾问，英国

这个问答组完全集中在这样一个问题：有没有可能对一个公司和/或实验室进行研究，并同时确保我们研究的潜在产出对社会也有影响？

我们以大数据为主要例子，营销商和企业对大数据有很明显的兴趣，他们希望提供给他们客户更好的服务和更高质量的产品，他们的最终目标是卖掉他们的产品和服务。

这个出发点是很好的，但是他们怎么去挖掘出所需要的数据呢？在预防/预测自然灾害，或者作为服务的辅助，“瞄准”某一类人的社会需求中又该怎么处理数据？

希望你会在这个令人瞠目结舌的采访中找到答案。RVZ

`问题1.你觉得，有没有可能通过利用一些现有的或者未来将会出现的研究与开发，让大数据也可以产生社会资本？`

阿伦：是的，大数据不仅仅是一个个人资料数据集，还能把数据放在线上（例如：政府数据，非政府组织，地方政府，记者等），通过整合这些数据，可以帮助我们说明数据对公众的价值和吸引力，一个简单的例子，最近，丹麦新闻奖颁发给了一个由医疗机构资助的医生的可视化数据，这个数据与公众沟通的能力是大数据议程中确定的一部分。

劳拉：当然，事实上，我们今天所付出的努力都在正确的方向上，我们的”智慧地球”很多相关的研究都是围绕着更多的智能化，和通过检测，观察以及捕捉到的地球上的所有信息，这些信息无论是自然产生的还是人为现象，我们从中会得到大量数据。

保罗：首先，承认技术进步是重要的，工作中的新技术，新方法经常会在无意中把有形的和无形的社会效益当成别的什么东西的副产品来实现。罗伯特·欧文和他的同事在18世纪末到19世纪初可能已经有了教育计划和社会福利的真实动机，他们已为他们工厂的工人做了这些，但对于慈善事业的付出也是他们工厂的一种商业成功。并且更好的教育也能让孩子变成更好的工人，说起来，这也不是没有私心的。

那就是说，很明显的空间大数据为区域社会援助带来直接利益，谷歌流感趋势或许是最著名的例子———分析搜索到的成千上万的流感相关关系（症状，药物等），使得谷歌的非盈利机构能够提供早期明显性的疾病，能够/应该帮助完善当地的医疗保健制度。谷歌的搜索引擎不含流感，它的索引无法对流感进行侦查和预报；这块数据价值仅仅是当所有人都搜索一个单一的网站时出现的“数据废料”，流感动态也不是单独的。哈佛的研究人员发现，Twitter数据理论上通过分析可以追踪海地的霍乱传播，在某种程度上，它证明了这种方式比传统方式“充分地快”。根据马修·英格拉姆的研究报告，”哈佛和全球疾病警报地图研究表明，当一件事情发生以后，分析和海地有关的推文组成的大型数据集，不仅仅擅于追踪模式或者发现某种关系，实际上还对研究人员在处理这些事情的时候有一种身临其境的感觉“。

罗杰：是这样的，我们已经看了几个这样的例子，和科学有关的一个例子是吉姆·格雷和亚历克斯·绍洛伊合作为天文学创建了一个虚拟天文台，利用了杠杆关系数据技术。社会功能缺陷筛选量表的天空服务器已经支持数以百计的研究者，并导致一年出现了数以百计的出版物。另外一些较新的例子，语言翻译方面的研究者在微软研究院为在2010年海地地震之后为那里的救灾人员建立了语言翻译系统。他们利用了和我们相同的技术，在我们的检索操作中建立了一个统计机器，用翻译引擎把海地克里奥尔语翻译为英语，他们用了4天17个小时30分钟就把这个系统交付给了在海地的救灾人员。

`问题2.如果是这样子的，你觉得大数据的哪一方面会对社会资本有真实影响？`

阿伦：把在其他方面自带的隐藏数据展示给有兴趣的人们。世界范围内的数据积极分子和新闻记者都需要很容易去发现数据集，用一种合理的方式合并它们并且说出他们的某个故事，可以吸引大众的注意力。例如，帮助人们应对危险状态时（数据）的巨大潜能。另外，人们已经在2011年日本地震之后和稍晚些时候纽约飓风之前，使用谷歌融合表的危险信息创建了管理分析与规划系统。

劳拉：医疗保健是很明显的一种，利用现在生命产生的海量基因组信息和患者记录，然后医学文献也能帮助我们对个人患者提供最有效的治疗———或者发现新的比当前所用的更有效的治疗方法。我们已经处理过利用大数据和机器学习为AIDS患者预测最好的治疗方案，例如，当提到自然资源的时候，我们利用大数据使得风力发电厂的汽轮机布局最优化以便我们得到最大化的能量，和对大自然影响的最小化。我们也能够着眼于人工现象———例如，了解交通模式然后用洞察力去做一个更好的规划，或者提供奖励措施也能减少高峰时期的交通拥挤。很多其他的例子也能有效的说明，大数据正在实实在在的改进这颗星球。

保罗：机会必须是———肯定是———很庞大的吗？任何大的影响社会的问题，来自于社会变化，来自于人口增长，来自于清洁水源的需求，食物以及医疗健康；所有这些影响对人类这个群体来说都是巨大的，因策这些方面都会有政策规划或者交付，（或应该有，如果有人收集它们）换言之，这些都是富含数据的。大量的，迅速的，和多样化的数据在很多这样的领域都应该为从业者提供富有挑战的研究机会，当他们成功的时候，便能对社会提供实实在在的利益。

罗杰：首先眼提及的是促进了科学研究，被称为eScience的科学代替了传统的自然科学，从天文学，海洋学，一直到社会科学和经济学。我们能够取得对空前数量的有潜能的数据的分析，这会对科学产生深远的影响，这也是一个飞跃，从计算机的简单应用到支持科学家去“做”科学（例如，’计算机科学’），整合了计算机科学，使能够对大量的数据进行分析来抽取洞察到的非常详细的科学构造。乍看起来，这种变化好像很微妙，但我们相信它对基础科学和科学方法的熟练很有必要，的确，我们相信这些发展代表了新型科学革命的基础。我们从《The Fourth Paradigm:Data-Intensive Scientific Discovery》中很多不同的科学调查中捕获故事。

`问题3.在这个领域里的主要挑战是什么？`

阿伦：数据发现是一个巨大的挑战（怎么样从巨大的数据收集中找到高质量的数据，也就是说在互联网上），决定有质量的数据集及其相关的详细问题（例如，数据集产生了一些潜在的设想，对一个特定的问题，它是偏颇的和无益的）。以及对那些只有一点点数据库知识的人来说，结合多数据集是一个常见的挑战。

劳拉：随着各种大数据工程的出现，出现了很多同样议题共存的现象，我提三个主要范畴的话题：那些与数据有关的，它本身，那些与源于理论领悟和得益于数据的进程有关的，最后，那些和管理问题有关的例如通常的数据隐私，数据安全以及管理等。在数据空间里，我们讨论了数据的4’V’：Volume（仅用它的绝对尺寸处理它），Variety(操作类型和来源和格式的多样性)，Velocity(在应用的需求时间内对信息流做出反应)，最后，或许也是最重要的，Veracity(我们怎么样才能处理不确定地，不精确地，缺失值和非缺失值，偶然事件，错误报告或者非真值呢？)。挑战也来自于包括捕捉数据，校准来自于不同数据源的数据（例如：分辨出两个相同的对象），把数据转化为一种易于分析的形式，建模，有无数学，或者通过一些仿真形式，等等。理解，然后输出———肉眼观察然后分享结果，例如，管理包括确保数据被正确的使用（遵守它的预期用途和相关法律），跟踪数据是怎么被使用的，转换，导出，等等，并且管理他的生命周期。这些所有的方面都有研究课题。

保罗：数据可用性———这些数据可用吗，根本不？这个问题愈来愈强烈，但是覆盖范围和综合性经常保持的不调和，严格的编辑数据集仍然可以提高关注点。一个有代表性的好的方法，如果基于一个很糟糕的数据，就会产生一个很糟的决策。数据质量———数据有多好？数据的覆盖面有多广？采样精确度有多精确？例如，一个还小影响了几个太平洋的沿岸国家？如果一个国家的数据质量很高，但是另一个就非常不好，那么救援响应就会“不公平的”倾向于调查清晰的国家，或者是倾向于无法根据数据推测的那个国家？数据全面性———这个区域没有被数据覆盖？它蕴含着什么？个人身份信息———很多的信息都是关于人的，我们能够提取到足够的信息去帮助人们而不是去威海他们的隐私？一部分呢，根据有效的产业实践中的需求；另一部分，通过政府的有效监督，还有一部分———或许是最重要的，是不是需要现实重新考虑隐私真正的意义······权衡隐私’丢失’和其获得的效益这方面，现实中已有很多争论。相较于实施没有限制的隐私权政策，或许客户，监管部门和软件厂商应该达成某种形式的明确协议；如果你给我权限让我有权使用你的X,Y和Z，我将会把它们作为目标A,B和C，然后你将会获得利益或者得到服务D,E和F，前两个部分越来越多，虽然很正常，但最后一部分———利益———却少的多。数据独断论———分析数据能够得出很卓越的见解，但是我们必须要当心对数据负有的义务。领域专家———常识———必须继续扮演一个角色。这是令人担忧的，确实，如果医疗保健部门在当谷歌的流感趋势告诉他们去对流感爆发做出反应时他们才去。就像我最近的一篇博客所说的那样———

罗杰：第一要务是以数据为中心，这个目标不只是为一个特定的社群存储数据，而是去改进数据质量和精确的送去服务，形成一致的数据运行系统。这不是一个简单的用管道连接很多不同的数据源的问题。而是一个质量函数的应用，经过清理，让所有的信息变得一致，研究人员并不是简单的需要数据，他们需要基于服务的信息，在这样的数据基础上完成他们的工作

`问题4.主要的困难是什么？阻碍我们社群在社会资本项目的工作中的障碍是啥？`

阿伦：从技术层面来说，我认为没有什么特别的阻碍，可能主要的障碍是去实际操作技术和产生社会影响。这并非来自于技术社区典型看法，因此我们需要从活动中获得更多的灵感。

劳拉：数据的资金和有效性是两个大问题，很多社区的项目资金都来自于政府———众所周知，这只能是总体预算中的很小一部分。进一步地，市场对可能的新技术的接纳是相当迅速地，因此它不会吸引私营企业去投资。现在有很多的公开数据，常常会有很关键的一块丢失了，或者是私自扣押了，或者是法律原因不能制成，例如个人隐私，或者国家的利益，很明显的，就像很多的医疗调查，它也可能会突然出现在毫无关系的主题里，就像灾害管理（一些数据就像海岸建筑，却可能被划分为国防建筑）。

保罗：感觉到缺少易于检测的数据，那样的障碍会比法律障碍和个人隐私障碍低一些吗？这个问题是大规模和长期性的？他不是像别的什么东西一样很’cool’吗？一种感知（不管是不是真的）是学术资金推动了研究者在其他方向上的进步吗？老实说，我觉得这不是不可逾越的困难或是障碍，如果人们足够想去做它。就像提姆·赖利在2009年说的（从那以后提过很多次），开发者应该“做和那有关的事情”，上述情况也适用于研究者。

罗杰：最大的障碍可能来自于社会，一些项目需要社区意识，使人们采取行动，往往领导这种技术是一种挑战，换句话说，把社区变得可接近的。这个项目很可能需要关闭技术社区的合作，便有了者熟悉的难题。

`问题5：我们能够采取什么措施才能对大数据资产有所帮助呢？`

阿伦：建立高质量的数据是获得广泛认可的，而且高质量数据还是很多特殊数据工程的中坚力量。例如，数据集包含了国与国，以及其他主权地区之间最新的人口数据，同时它也是一个特殊数据出现的来历，那些特殊数据集可以使原数据集变得充实。

劳拉：目前，我们看到越来越多的联合集团致力于这样一些问题，密集型数据中心可以提供数据和平台，缓解一些上述的数据采集和管理方面的问题，在一个给定的主题里，设置环境和工具，收集专业知识，要么是在数据上，要么也可以在分析上，例如用于管理的工具等等。我自己的团队基于促进商业协作的目的就创建了这样一个平台。当然，游说政府支持一些积极性的举措也非常不错。

保罗：对于研究者和公司，其需要一个匹配域用于技能和产品。就像最近的大数据编程马拉松周活动可能就是接下来的一种可以推广的方法———鼓励组织者（就像Kaggle公司，每天都在做这些）去经营编程马拉松，组织比赛。这在一些社会问题中有着非常明确地目标。继续鼓励公开发布的数据的关键，在某个关心的领域和中介去讨论，面对面的了解到问题所在。然后找到方法去做好他们想去做的，这样可以建立信任和更好的交往。

罗杰：提供工具和资源，为研究授予长尾理论。今天，仅仅有一小部分科学家和工程师享有正式进入高性能和密集型数据的电脑资源环境，去处理和分析大量数据及建模和迅速模拟。实际上大部分科学家在研究过程中经常发现当他们需要获得授权去使用一些资源时受到的阻碍。这个问题在较小的研究机构尤为严重，他们代表了研究协会的长尾理论，排名在第一二类的大学有充分的资金和基础设施去获得稳定的支持和计算资源，而小的研究机构需要非常非常的努力才行。我们的基金资助机构和公司必须提供资源去支持研究者，尤其是那些手头没有多少可用资源的。

`问题6：你知道现有的和大数据资产有关的项目或者计划吗？`

劳拉：是的，有很多！就如上文的一些例子，IBM研究院独自在刚刚提到的领域里努力———或者还有很多，例如，我们已经在里约工作过，在巴西，需要用仪表计去做详细的洪水模型；在多伦多儿童医院需要在育婴室监督早产婴儿，要24小时不停的预防威胁生命的传染病；意大利的里佐利协会在特别的病人团体里找到了治疗癌症的最好方法。

罗杰：是的，联合国全球脉搏计划就是一个例子，在2012年早些时候的达沃斯年会上，世界经济论坛出版了一份白皮书题为《大数据，大影响；国际化发展的新潜力》，世界经济论坛展示了从根本上推动全球脉搏计划，在今天的世界格局下，激增的数据所产生的机会，以及研究者和决策者怎么样实现通过大数据来为他们提供参考，是的大数据能够被更好的使用，尤其是对一些低收入人群的利益来说。我发现从技术层面上来说怎么从周围的数据来为我们提供参考时间很有趣的事情，从GPS设备，电话和医疗设备，实时地连接了救援人员和病人的数据，用机器学习和分析学去分析它们，然后预测出潜在的社会需求或危机，这样就可以在事情还可控的时候对它进行补救。

`问题7：还有什么要补充的吗？`

阿伦：谷歌融合表已经可以再很多社会资产方面使用了，通过新闻记者，危机响应或者数据积极分子将数据可视化，从而吸引人们的注意力，融合表的工作有很多让人满意的方面，该表为我们的工作优先性提供了一个主要的推动作用，使人们很容易的去使用数据（而不是数据库）并对他产生强烈的兴趣，从而完成他们的工作。我们在工作流程上非常的仔细，专业的人才也使得它们尽可能的有效率。

劳拉：我觉得我们的研究群体能够通过我们开发的工具做很多的资产，用我们的专业知识去攻克一些和我们世界沾边的关键问题，当我们做这些的时候我们甚至可以创建经济价值（这也不是一件坏事）。

巴基·罗杰博士从1997年就一直在微软公司，首先作为研究员在微软数据库研究小组工作，然后设计技术研究主动性，接着作为缔造者和工程师领导了微软研究院的eXtreme Computing小组。t按目前领导一个产品小组开发一种Windows上的与分析服务。

阿伦·哈勒威博士是谷歌结构化数据研究的领头羊，在这之前，他是华盛顿大学计算机科学学院的一个教授，他在那里建立了数据库研究小组，从1993年到1997年他是AT&T Bell Laboratories（后来称为AT&T Laboratories）的技术参谋团的主要成员，在1993年他从斯坦福大学获得计算机科学的哲学博士，然后他在1988年从以色列的希伯来大学获得计算机科学可数学学士学位。哈勒威博士入选2006年计算机协会。

劳拉·哈斯博士是IBM的小伙伴，是IBM海量数据研究，建模和分析的领导者，她也作为一种“催化剂”连接与IBM和世界上那些有野心的研究室。它从2005年到2011年是IBM的阿尔马登研究中心研究计算机科学的主管，它领导了信息集成解决方案架构和IBM软件小组的程序开发。再以前，哈斯博士是阿尔马登的一个研究人员，她最有名的工作是从DB2 LUW的研发基础上致力于放射查询处理器的工作，一个允许集成异构数据源的Garlic系统，第一个异构映射的半自动工具Clio.她获得了IBM杰出贡献和创新奖，以及IBM授予她的信息集成技术奖，哈斯还是2004年到2009年的VLDB慈善董事会的副主席，她也是美国国家工程院院士和IBM技术研究院院士，美国计算机协会的会员，也是计算机研究协会的副主席。

保罗·米勒博士是云数据的创始人，一个总部在英国的咨询公司，主要涉及云计算，大数据以及语意技术。他为欧洲和北美洲的公共及私人客户服务，米勒是考古学博士出身。

（地理信息系统）向约克大学致谢：感谢迈克尔·J·凯里和柏林的小伙伴对EDBT计划的集思广益，Thanks。RVZ