AI TIME欢迎每一位AI爱好者的加入!
2020年初,新冠疫情大规模爆发,迅速蔓延演变成影响全球各个国家的重大卫生事件。面对疫情,各国政府积极采取应对措施,新闻媒体实时聚焦疫情事件报道,世界各国学者迅速投身新冠病毒及防治领域的研究。如何从海量的新闻中梳理出疫情发展的脉络,从众多学术信息中跟踪不同方向研究进展,成为科研人员研究的热点问题。实践证明 AI可以成为抗疫期间有力的信息捕手,筛选出有价值的信息。
本次AI TIME技术分享知识疫图专题最后一期,我们很荣幸的邀请到了智谱华章高级开发工程师,AMiner团队成员的杜冀中,为大家分享知识疫图新冠疫情新闻学术数据的获取及分析应用背后的技术实践,看看AI是如何充当好这个信息捕手的。
将众多渠道采集到的大量新闻和学术数据,通过多种分析方法挖掘出这些信息中有关联、有价值的部分,并融入知识疫图的全球新冠疫情智能驾驶舱中。如图一所示,知识疫图系统主要设计了事件列表、事件详情、实体链接、关联事件、事件时间轴几个模块对疫情事件进行展现。展开某一具体实体链接,可以得到如图二包含实体描述、实体关系、实体属性等详情的实体面板。这些面板不仅提取整合了大量的疫情信息,同时采取的展现形式清晰明了。
图一 事件展现面板
图二 实体展现面板
在知识疫图中,用户可以轻松获取处理后有价值的疫情信息,那这些实体、关联事件都是如何得到的?讲者将通过数据抓取、实体链接、风险影响力计算、相关事件计算、可视化五项核心工作为大家介绍。
1)数据抓取
在数据源方面,知识疫图采取实时抓取方式,整个流程如图三所示,数据采集、去重、分类、实体链接等流程都做了自动化以实现时间线的实时更新。针对学术和新闻两种数据类型,选择不同的数据源。学术数据主要来源于柳叶刀、Science、Nature 、bioRxiv、medRxiv等,新闻数据主要来自WHO、xinhuanet.com、Worldometers等高质量新闻媒体平台。
图三 知识疫图数据抓取流程
2)实体链接
在实体链接方面,主要使