阿里达摩院刷新纪录,开放域问答成绩比肩人类水平,超微软、Facebook

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/94502224

640?wx_fmt=jpeg


出品 | AI科技大本营(ID:rgznai100)


近日,由阿里巴巴达摩院语言技术实验室研发的 Multi-Doc Enriched BERT 模型在微软的 MS MARCO 数 据评测任务,Passage Retrieval Task(文档检索排序和 Q&A Task(开放域自动问答)中双双刷新记录,均取得榜首(截止 2019 年 6 月 26 日

 

MS MARCO 挑战赛是 AI 阅读理解领域的权威比赛,包含 100 多万问题和近千万篇文档,参赛机构提供的 AI 模型需要从这些文档中找出 100 万个问题的正确答案。参与此次评比的还有微软、Facebook 等公司。

       640?wx_fmt=png       

与斯坦福大学发起的 SQuAD 挑战赛不同,MS MARCO 数据集模拟了搜索引擎中的真实应用场景,其难度更大,是机器阅读理解领域最有应用价值的数据集之一。MS MARCO 挑战赛需要参赛者提交的模型具备理解长文档多段落,并回答复杂问题的能力。对于每一个问题,MS MARCO 提供多篇来自搜索结果的网页文档,AI 需要通过阅读这些文档来回答用户提出的问题。但是,文档中是否含有答案,以及答案具体在哪一篇文档或段落中,都需 AI 自己来判断解决。

 

更难的是,有一部分问题无法在文档中直接找到答案,需要 AI 自由发挥做出判断。这对机器阅读理解提出了更高要求,需要 AI 具备综合理解多文档信息、聚合生成问题答案的能力。

 

阿里的突破在于提出了基于“融合结构化信息 BERT 模型”的“深度级联机器阅读模型”, 可以模仿人类阅读理解的过程,先对文档进行快速浏览,判断,然后针对相应段落进行精读,并根据“自己的理解”回答问题。 其中,阿里巴巴自研的算法成果——“深度级联机器阅读模型”已被 AAAI 2019 收录。

 

这是继 2018 年《Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering》(ACL 2018在单文档阅读理解(斯坦福 SQuAD 挑战赛取得的成果后,阿里巴巴研究团队在机器阅读理解领域的又一次突破。 

 

机器阅读理解模型需要的输入是<Question, Documents>,业务应用中,枚举所有Document,计算并排序答案后给出最终答案显然不实际;另一方面,设计完全的 IR+MRC 的端到端(End2End模型, 并辅以 Joint Trainning 在线上部署和实际使用时也会遭遇模型过大导致的性能瓶颈。因此,采用 Question 相关文档选择及文档中段落裁剪,并将有限且相关的备选段落交给 MRC 模型的方案是兼顾 Effectiveness 和 Efficiency 的核心策略。 

 

阿里巴巴研究团队在 MS MARCO 上提交的 Multi-Doc Enriched BERT 模型,正是为了解决上述问题。团队先于2019年初提出了级联学习框架《A Deep Cascade Model for Multi-Document Reading Comprehension》(AAAI 2019),设计出深度级联机器阅读框架,该方案可有效降低召回阶段延时,并最大化答案准确率,算法在召回和排序上逐步从文档级别,段落级别演化,并在最后有限的备选段落中进行答案提取工作。

     

随后,研究团队提出了 Enriched BERT 模型,配合 Deep Cascade Model 框架,在多文阅读理解上超过了之前广泛使用的 IR Based MRC 模型。其中,负责提供语义表征的 Enriched BERT 模型除了在 MS MARCO 上作为语言模型帮助取得双料冠军外,在国际公认的自然语言理解标准数据集 GLUE Benchmark 上也取得了 Top3 的成绩(相关技术近期公开)。


特别在 MS MARCO Q&A Task 上,阿里方面称,较之前最先进的模型有 1.5% 的 Rouge-L 绝对提升。此外,在 MS MARCO Passage Retrieval Task 上,他们自研的 Enriched BERT Base 模型领先于其他模型。

    640?wx_fmt=png       

阿里方面介绍,阿里 AI 可以像人类一样在阅读并理解后快速应对天马行空的问题。比如阿里 AI 可以在毫秒内读完 2 亿字的巨著, 相当于 5 本《大英百科全书》,并根据自己的理解快速回答 100 多万个不同领域的不同问题。例如 2014 年足球世界杯的冠军是谁?哈利波特在哪里上学的?什么是宇宙中最强的磁场?阿里 AI 可以分别迅速给出答案,这一研究水平可以应对高中英语阅读理解试题。

       640?wx_fmt=png

(这一AI能力已应用在阿里电子商务平台中)

 

对人类而言, 阅读是获取知识、不断进步的重要途径;对机器而言,同样如此。阿里 AI 这一成果揭示了机器在理解大量复杂材料以及回答现实生活中复杂问题方面的潜力。

 

据阿里方面介绍,这一技术已经开始大规模应用,例如去年在 Lazada 一次线上促销活动前, 阿里 AI 仅仅花了 30 毫秒就学会 25 个在印尼促销品销售中的所有规则,并成功应用到聊天机器人中,在活动中回答问题方面的准确率达到了 96%。

   

围绕电商服务、导购及任务助理为核心的智能人机交互产品,在活动,规则,指南等场景中替代人工构建知识,降低人工成本,提升认 知智能能力,为海量的活动规则咨询提供解答服务。在近年来的双 11,双 12 场景及最近的 618 大促中维护效率提升 50%,相比通用方案解决率提升 10%。同时,这一技术也活跃在政务场景如市 ⺠办事咨询中,基于浙江省百万级办事指南库,”身份证到哪里换“这类咨询从等待人工回复时⻓ 2.5 天提升到了秒级响应。 

       640?wx_fmt=png

 

以多文档开放问答场景的机器阅读为代表的语言理解技术是自然语言处理的基础能力之一,在这些基础能力之上,阿里巴巴可围绕该技术构建一系列问答类应用。在产业落地方面,问答平台及聊天机器人产 品等会伴随这项技术丰富其自身能力,降低人力成本提高效率;对于消费者来说,智能客服以后可以帮助 消费者在购物时有更好的体验。

     

当前,无论是在工业界还是学术界,各方研究团队都在机器阅读理解上投入大量精力。未来,除了对话和问答场景,在搜索场景中,搜索引擎将不仅仅是返回用户相关的链接和网⻚,而是通过对互联网上的海量资源进行阅读理解,直接得出答案返回给用户。 


附:级联机器阅读理解模型详解


阿里方面提供的资料显示,级联学习可以通过在不同阶段采用不同的特性选择和样本筛选策略达到效果和性能的平衡,阿里巴巴提出的多文档机器阅读模型首先利用简单特征和排序模型过滤掉与问题无关的样本和段落,并得到一组候选文本,供后续从中提取答案。然后将生成的段落传递给基于注意力的深层 MRC 模型(不同于传统多层 MRC,阿里巴巴研究团队在近期公布的 Google BERT 进行了进一步的创新优化,并设计了基于 Enriched BERT 的新 MRC 模型,该模型用于提取单词级别的实际答案跨度。

 

为了进一步提升模型效果,该模型使用文档提取和段落提取作为辅助任务,以快速减少搜索空间的范围。重要的是,这三个任务在统一的深层 MRC 模型中共享同一个底层语言模型(Enriched BERT,这不仅可以实现粗到细的演绎过程,还可以通过迭代有效地学习更好的模型。

       

640?wx_fmt=png

              

如上图所示,系统架构由三个核心模块组成,分别负责文档检索、段落检索和答案提取。对于前两个功能中的每一个功能,都定义了一个排序函数和一个提取函数。排序函数用于无关内容的过滤(Efficiency。提取函数将文档提取和段落提取作为辅助任务并与最终答案提取模块机器阅读理解 联合优化,以提高性能Effectiveness。所采用的方案与以前的方法相比,关键的改进是每个模块的本地排序功能在成本和复杂性上逐步增加,在整个计算过程中保持效率和有效性竞争因素之间的平衡。

       640?wx_fmt=png

   

在实验中备注:AAAI 2019 的实验中不包含 Enriched BERT 结果,后续公布),模型开发人员首先用 TriviaQA Web 和 DuReader 基准数据集验证了在离线测试中的有效性,这两套数据集通常被用作多文档 MRC 评测的标准数据集。该基准数据的结果表明,研究人员所提出的模型明显超过了以前最先进的模型, 在每个包含两个段落四个文档集的场景中性能最佳;此外,通过额外的辅助任务在初期排序中消除不相关的文档和段落,时间成本被证明是可以降低的,可以在不显著影响最终答案提取效果的情况下完成。

     640?wx_fmt=png       

经过验证,团队使用阿里小蜜客服机器人系统进行了在线环境测试,该系统旨在帮助阿里巴巴集团电子商务平台解决每日约 200 万名访问者提出的问题。这些测试表明,该模型能够以低于 50 微秒的速度满足请求,同时也提高了有效性标准。

 640?wx_fmt=png    

上述结果表明,通过减少无关内容的“噪声”,该模型可以大大改善现有的最先进在线答疑系统标准, 同时更好地平衡提取过程各个阶段效率和有效性。 

     

相关链接:

http://www.msmarco.org/leaders.aspx

https://gluebenchmark.com/leaderboard/


(*本文为 AI科技大本营整理文章,转载请联系 1092722531


精彩推荐



640?wx_fmt=png

640?wx_fmt=png


推荐阅读


640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢
展开阅读全文

Facebook创始人:Facebook将越来越开放

01-03

导读:著名科技博客网站TechCrunch主办的“TechCrunch 40”研讨会本周一正式开幕,会上TechCrunch创始人迈克尔·阿灵顿(Michael Arrington)与社交网站Facebook创始人马克·扎克伯格(Mark Zuckerberg)进行了对话,扎克伯格表示,近期内不会出售Facebook。以下为对话摘要:rnrn  阿灵顿(以下简称“阿”):过去12个月中,Facebook规模增长了4倍,你觉得Facebook能承受得了这种高增长吗?rnrn  扎克伯格(以下简称“扎”):目前的增长速度是每周3%。rnrn  阿:而你们的页面浏览量出现下降。rnrn  扎:我们认为,如果把更多控制权让给用户,他们就能共享更多信息。他们共享的信息越多,Facebook就能给用户带来更多体验,他们回访率也就越高。在我们推出新闻服务后的数周内,页面浏览和流量上升了50%。rnrn  阿:听说有用户投诉,你对此有何感受?rnrn  扎:对于Facebook的失误,我们未能很好地与用户沟通。我们要做的事就纠正失误,让用户具有更多控制权,并向用户进行更为中肯的解释。rnrn  阿:你们今年5月推出了Facebook平台,究竟什么是“social graph”工具?rnrn  扎:“social graph”是Facebook的一种服务模式。我们并不想建立新型联系方式,而只是为了反映出真实世界。就平台而言,我们的创意就是为用户提供更多便利服务,这也是social graph工具的重要组成部分。rnrn  阿:MySpace希望关闭第三方应用软件,Facebook的做法则与之完全相反,这种方式是否对投资者及其他人士具有吸引力?rnrn  扎:开放平台后,第三方软件开发者可在Facebook现有服务基础上开发出新产品。半年前Facebook已开放了API(应用编程接口),因此它已经是部分开放。rnrn  阿:你们将于何时在Facebook上投放更多广告?rnrn  扎:我们已经在Facebook投放了一些广告,它们都较有针对性。今后3~6个月中,我们还会出台更多创新举措,只是眼下还不便透露详情。rnrn  阿:说说你最青睐的第三方应用软件。rnrn  扎:那就多了,比如说视频应用软件,我们只能说“太棒了”。rnrn  阿:谈谈平台遇到的问题;应用软件得到了很多用户的首肯,而不少软件存在着“黑帽”(指各种作弊行为)活动。应用软件开始比较开放,后来开放程度却逐渐降低。Facebook如何处理这个问题?rnrn  扎:Facebook必须决定是否向合作伙伴开放,即制定好开放路线。对于那些负面影响的活动,最好的方式就是阻止他们进入系统。虽然我们的解决方案并不完美,但我们今后将进一步加以完善。rnrn  阿:业界称,你们发现漏洞后就会加以修补,但如果你们已从某些不足中获益,还有这样做的必要吗?rnrn  扎:我们调整措施,是为了能好应对各种活动,尤其是把注意力从注册用户转向活跃用户。rnrn  阿:如果某个创业公司开发了新型软件后,首先应该用于Facebook还是用于其他网络?rnrn  扎:都可以。rnrn  阿:但一些应用软件只用于Facebook上。rnrn  扎:Facebook系统与其他网络还是存在区别。有的应用软件在Facebook上运行很稳定,有的则可作为单独网站软件。rnrn  阿:说说Facebook的RSS新闻聚合业务。rnrn  扎:我们要做的东西还很多,使Facebook越来越开放。rnrn  阿:目前用户必须登录才能访问信息。Facebook最近开放了内部电子邮件系统,这是否意味着今后将开放一般性功能的Facebook电子邮件系统?rnrn  扎:开始阶段每次只向一位用户开放一条信息,最近则可发送更多。目前Facebook能阻挡大量垃圾邮件,这是件好事。我们希望在这方面做得更好,但Facebook基础定位并不是一家电子邮件服务商。rnrn  阿:能否谈谈对有关融资传闻?rnrn  扎:我们不想看到Facebook被收购或进行首次公开招股 (IPO)。rnrn  阿:以应用软件产品为基础,你已拥有了无数个开发团队,你将如何支持他们?rnrn  扎:我有一些事情需要宣布……rnrn  公告要点:Facebook希望给应用软件开发者提供更便利的条件。Facebook基金将与Facebook投资者一起设立顾问委员会,任何开发者可提交应用软件至1000万美元基金,然后将获得2.5万~25万美元不等的奖励。只是奖励,而不是投资,目前也没有执行;但任何人都可通过facebook.com平台申请,标准是开发者需具有强烈兴趣和创造力。rnrn  听众提问:如何解决Facebook的搜索问题?rnrn  扎:网民可搜索Facebook中的任何用户,但屏蔽了私密信息设置。只有用户登录后才能看到详细信息。这种方式即可使新用户查看其他用户,又能避免泄漏大量用户信息。rnrn  听众提问:理论上讲,如果新闻集团同时收购了Facebook、LinkedIn和MySpace,那么三家社交网站如何整合?rnrn  扎:这种情况永远也不会发生(听众笑声)。rnrn  问:Facebook何时能支持诸如微格式(microformats)和开放ID等开放格式?rnrn  扎:目前我们人手有限,我们还有更重要的事情需要去完成,而这些事情关系到Facebook的未来发展。rnrn转自:http://tech.sina.com.cn/i/2007-09-18/14411746778.shtml 论坛

Facebook开放构架,平台圈地竞争升级

12-16

12月13日,Facebook宣布将把开发平台架构开放给其它社交网站:rnrnFacebook 资深平台经理Ami Vora日前在博客里宣布,我们希望分享我们工作的成果,让其它网站也可运用我们的平台架构当作模范。Vora写到,事实上,我们也将把Facebook Platform的方法与标签授权给其它平台使用。换言之,目前10万个有开发Facebook应用的开发者将可把他们的应用直接转移到其它社交网站使用,完全不需任何其它额外作业。此后,英国最大的交友网站Bebo和即时通信网站Meebo先后宣布,将采用脸谱网站的平台技术。rnrnFacebook宣布开放平台构架,无疑是针对Google的OpenSourse计划的有力反击,而从时机上很有可能会让Google比较头痛,毕竟Google的OpenSourse更多还是计划成分,仍处于测试和观望时期。rnrn从某种意义上Facebook开放平台构架和Google的OpenSourse在做的是同类的事情,提供标准化的平台规则,这将会对应用的网络移植性有很大的好处,用户也会得到更好的体验。从前的Facebook自己是平台,吸引第三方的widget开发商来提供应用,而开放后的Facebook有可能会成为更大的平台,Facebook制定了更广阔的平台开发的标准,OpenSourse也是这个目的,但我觉得Facebook更有优势。rnrn1. Facebook的平台相对成熟。拥有大量用户的Facebook,最早制定平台标准的网站,而且运营已经有近一年的时间,Facebook的平台化思维俨然成为模范作用,而相比OpenSourse,可能大家更多是观望状态。rnrn2. Facebook拥有大量成熟widget。如果一个SNS网站想吸引更多的应用,最方便的方式就是copy Facebook的widget,按照统一的标准,widget可能非常流畅的转化,这对于SNS网站和widget提供商而言,都是再好不过了。rnrn来自:[url=http://flyu.com.cn/post/397.html]http://flyu.com.cn/post/397.html[/url]rnrn未来平台化标准将会大行其道,Facebook和Google都要抢夺这块市场,所谓开放,我觉得更确切来讲是“圈地”,制定行业标准的人总要凌驾于行业之上,但这也意味着更加开放的互联网的出现,更多的小公司可以将应用结合在SNS平台上,借船出海,互联网实现了更开放的互通,这绝对是一件好事情。 论坛

没有更多推荐了,返回首页