知识疫图背后的故事之新冠疫情中新闻学术数据的获取及分析应用

本文介绍了知识疫图如何利用AI技术抓取和分析新冠疫情的新闻学术数据,包括数据抓取、实体链接、风险影响力计算、相关事件计算和可视化的过程,展示了AI在疫情信息处理中的应用。
摘要由CSDN通过智能技术生成

AI TIME欢迎每一位AI爱好者的加入!

2020年初,新冠疫情大规模爆发,迅速蔓延演变成影响全球各个国家的重大卫生事件。面对疫情,各国政府积极采取应对措施,新闻媒体实时聚焦疫情事件报道,世界各国学者迅速投身新冠病毒及防治领域的研究。如何从海量的新闻中梳理出疫情发展的脉络,从众多学术信息中跟踪不同方向研究进展,成为科研人员研究的热点问题。实践证明 AI可以成为抗疫期间有力的信息捕手,筛选出有价值的信息。

本次AI TIME技术分享知识疫图专题最后一期,我们很荣幸的邀请到了智谱华章高级开发工程师,AMiner团队成员的杜冀中,为大家分享知识疫图新冠疫情新闻学术数据的获取及分析应用背后的技术实践,看看AI是如何充当好这个信息捕手的。

将众多渠道采集到的大量新闻和学术数据,通过多种分析方法挖掘出这些信息中有关联、有价值的部分,并融入知识疫图的全球新冠疫情智能驾驶舱中。如图一所示,知识疫图系统主要设计了事件列表、事件详情、实体链接、关联事件、事件时间轴几个模块对疫情事件进行展现。展开某一具体实体链接,可以得到如图二包含实体描述、实体关系、实体属性等详情的实体面板。这些面板不仅提取整合了大量的疫情信息,同时采取的展现形式清晰明了。

图一 事件展现面板

图二 实体展现面板

在知识疫图中,用户可以轻松获取处理后有价值的疫情信息,那这些实体、关联事件都是如何得到的?讲者将通过数据抓取、实体链接、风险影响力计算、相关事件计算、可视化五项核心工作为大家介绍。

1)数据抓取

在数据源方面,知识疫图采取实时抓取方式,整个流程如图三所示,数据采集、去重、分类、实体链接等流程都做了自动化以实现时间线的实时更新。针对学术和新闻两种数据类型,选择不同的数据源。学术数据主要来源于柳叶刀、Science、Nature 、bioRxiv、medRxiv等,新闻数据主要来自WHO、xinhuanet.com、Worldometers等高质量新闻媒体平台。

图三 知识疫图数据抓取流程

2)实体链接

在实体链接方面,主要使用了两大现有的基于知识图谱的实体链接系统。一个是同样由AMiner团队融合现有构建的大规模、结构化的COVID-19 KG 新冠知识图谱,另一个是XLINK—基于XLORE的实体链接系统。接入了构建的疫情知识图谱对所有事件做实体识别,分析出事件之间的关系,并对事件及热门实体关系等数据进行可视化展示

3)风险影响力计算

风险影响力计算主要有以下4个方面:

1.事件的表示学习

采用最新的无监督Graph Embedding 方法ProNE,将所有的事件和他们所关联的关键词作为节点,连接成一张无向图(如图四),然后对它使用ProNE计算出每个节点的向量表示。

图四 关联无向图示例

2.人工标注

人工标注了约800条事件的影响力,占总体事件的10%左右,选择向量空间上占据不同位置的事件以使标注事件在目标空间有更好的分布。

3.影响力计算

事件影响力计算基于KNN,使用最近的3个标注事件来计算当前事件的影响力,采用加权平均的方式,权重和向量之间的欧几里德距离呈反比。

4.热点实体

热点实体计算是在事件影响力的基础上做了进一步的扩展,把每天的事件整体作为一个文档,热点实体所在的事件的影响力之和作为他出现的次数,进而用TF-IDF来计算每个实体在当天的影响力(如图五)。

图五 实体影响力计算示例

4)相关事件计算

相关事件的计算也是基于事件的Embedding,知识疫图采用了内机的方式,整体上是一个Hierarchical Clustering的算法,选取一个Threshold,把所有similarity小于这个阈值的事件连接起来,构成一些连通子图,然后将threshold调低,进一步连接这些子图。重复这个过程,构建出如图六的事件的层级结构。

图六 事件层级结构

5)可视化

可视化关注的是将得到的数据和分析成果如何更好地呈现给用户,如图七所示,知识疫图通过事件的地理位置信息将事件按事件标注在Mapbox地图上,时间轴采用堆叠柱状图的形式展示不同类型事件随时间变化的全貌。

在知识疫图中,事件可视化是可以按照时间轴动态播放的,为保证播放时界面的流畅性和提高整个数据处理过程的性能,讲者主要做了两方面设计(1)通过控制地图和时间轴刷新的频率来解决性能问题,地图和时间轴不会随着React状态变化实时刷新;(2)增加对中间数据和渲染组件的缓存来提高刷新效率。

系统数据展示的一大亮点是保证了数据的实时刷新,为保证前端可以获取到最新的信息,讲者也做了两方面的设计,一是通过在每个事件上增加时间戳的方式来达到与后台数据的实时同步,二是初始化数据以及每次更新请求中都会附带时间戳信息,用来确定要更新的数据。

图七  事件可视化

图八是知识疫图事件可视化初始版本和现行版本的对比,从两者的比较中,可以发现知识疫图事件的展现形式做了很大的改变,柱状堆叠图使界面更简介,内容更聚焦。并且随着技术的迭代,事件面板也增加了更加丰富的内容。

图八 事件展现初始版本(上)VS现行版本(下)

答疑互动

通过以上五项核心工作,知识疫图完成了新冠疫情中新闻学术数据的获取及分析应用,成为了解疫情新闻和学术研究进展的优质渠道。最后为大家节选了部分直播后在微信群里嘉宾与大家的答疑互动,看看还有哪些细节补充。

请问具体怎么确定threshold?是一点一点地减少数值(0.9,0.8),那么又如何确定减少的步长?

我们在确定步长的时候也是做了很多的测试,最终根据测试结果确定的目前的步长。

做事件的Embedding计算的时候用到的事件的关键词是怎么得到的呢,是直接使用的实体链接得到的实体么?

我们使用了两个实体链接工具,新冠图谱的话主要聚焦新冠方面的实体,XLINK可以做更大规模实体的抽取,两个工具同时使用帮助我们获得了高质量的关键词。

知识疫图目前已经包含了很多部分,比如智能驾驶舱、学术时间线等等。我们在做知识疫图产品的时候,是从哪些角度来规划这些能力以及上线的优先顺序的?有没有一些经验可以介绍给同类产品或有类似产品想法的小伙伴们。

我们做这些产品的初衷还是希望利用我们的技术优势做一些对疫情控制以及疫情研究有意义的事情,AMiner的优势在学术,所以我们最初做了新冠高关注度学者以及学术时间线等产品,国内的疫情预测也是在最初就开始的,后来随着国内疫情的控制以及国际疫情爆发,我们开始考虑开发面向国际化的产品并整合早期我们做的数据和分析成果,就有了后面的驾驶舱的项目。

目前知识疫图的大部分功能都是面向学术领域的,有没有考虑过要做一些和大众相关的应用?

随着我们技术的深入,我们确实希望有一个轻量级的能为普通用户提供有价值信息的渠道。我们正在规划这样的产品相信不久后会跟大家见面,当然如果大家有对这方面很感兴趣的也非常欢迎加入我们一起把知识疫图推进下去。

疫情之下,人工智能和大数据能做什么?AMiner团队用知识疫图系统交出了自己的答卷,通过自己的专业知识为疫情做出了贡献。本次AI TIME知识疫图专题,5位嘉宾的精彩分享从不同的角度为大家介绍了知识疫图,让大家不仅认识了解了这个系统的强大,同时也学习到了很多背后的技术实践。

作为全球新冠疫情风险评估和复工辅助决策系统知识疫图从AI和大数据入手,整合新冠病毒各种数据,提供了多项智能预测和服务,在疫情期间发挥了重要作用。目前新冠疫情依然在全球蔓延,未来知识疫图也将继续关注疫情的发展,开发上线更多的功能,希望大家可以持续关注,同时也请期待AI TIME接下来更多的精彩内容!

整理:何文莉

审稿:杜冀中

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

 

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“阅读原文”下载本次报告ppt)

(直播回放:https://b23.tv/5lotHn)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值