科技进步带来的便利已经涉及工作生活的方方面面,ChatGPT的出现更是掀起了新一波的智能化浪潮,推动更多智能应用的涌现。这背后离不开一个朴素的逻辑,即对数据的收集、治理、建模、分析和应用,这便是数据科学所重点研究的对象——数据价值链的实现。这个过程涉及数据存储计算、数据治理、结构化数据分析、数据可视化等数据科学关键技术。

随着智能化应用的发展,文本分析和知识图谱技术的重要性日益凸显,成为推动数据科学领域进步的关键驱动力,为万花筒般的智能未来奠定无限可能。那么,在应用场景的不断拓展中,它们是怎样发挥作用的呢?

新年临近,百分点科技与清华大学出版社倾力打造的《数据科学技术:文本分析和知识图谱》重磅上市!该书以鲜明的实践性和工程化思维,为读者揭示了文本分析与知识图谱的内在机理,更通过实际案例,生动展现了工程化视角下数据科学的实践魅力

在现实世界中,数据科学家不仅要掌握算法和技术,更要具备项目管理的能力,能够将复杂的问题分解为可操作的模块,设计出高效、可靠的数据处理流程。因此,书中不仅详细介绍了文本分析和知识图谱的理论基础,更重要的是,基于百分点科技十多年的应用实践和行业知识沉淀,讲述了不同场景中真实落地的案例,手把手教读者如何建立起完整的数据科学项目实施框架,并在实际工作中应用这些技术。下文节选了书中智慧应急案例的部分内容。


智慧应急实践案例


一、案例背景

我国是世界上自然灾害最为严重的国家之一,灾害种类多,分布地域广,发生频率高,造成损失重。由于各种灾害事件呈现链式结构不断演化的态势,使得其造成的危害和影响远比单一灾害事件造成的危害和影响要大且深远。因此,从灾害链的角度对灾害风险进行研究,可以更加有效的进行灾前准备和灾中处理,以减少由灾害连锁效应带来的损失。

应急灾害链分析和预警应用系统作为行业领域知识图谱服务系统,通过自然语言分析处理能力,建立情报分析模型与语义分析模型框架,对系统接入的灾害事故新闻数据进行结构化处理和灾害事故链构建。以图谱形式展现灾害事故的历史数据关系,构建灾害事故链知识体系,通过对灾害事故链的数据分析和知识沉淀,对预报类信息的发生、发展的趋势给出事态发展的预警信息。基于灾害链图谱的预警辅助,有助于各地区各部门在灾害发生时及时了解灾害事故演变情况,采取“断链”处置及早斩断灾害演变,控制损失,在应急行业很有推广价值。


二、解决方案

  • 灾害链知识图谱构建:系统基于事故灾害语义模型的信息抽取能力,对接入的灾害事故新闻数据进行灾害事故链的信息抽取和相关灾害事故新闻的关联分析,从而构建对应具体事件的灾害事故图谱。
  • 灾害链搜索:用户输入事故灾害的查询条件,例如自然灾害的关键词、查询时间段、地区等,返回相关的灾害链以及链条中事故的出现频次、出现概率等,进行可视化展示,并且支持各种排序功能,例如按照出现概率进行排序,支持用户撰写灾害链分析报告。
  • 灾变孕育预警:根据增量接入的自然灾害新闻,结合灾害链图谱,进行灾变孕育预警,具体的思路是结合灾害造成各种安全事故的概率,如果满足一定的规则条件(例如概率高于设定的阈值),则发送报警提示(例如在系统中提示、发出邮件或者短信、微信报警等),需要引起高度重视,制定孕源断链减灾的应急措施。
  • 灾害情报分析:根据用户输入事故灾害的查询条件,对搜索结果支持分组对比显示,例如搜索的结果按照分年/分季度/分月对比显示,或者分地区对比显示,进行情报分析,例如地震造成的房屋倒塌概率按分年的结果显示,如果概率逐年降低,则说明房屋的质量在逐年提升。
  • 语义模型训练中心:为应急管理图形分析定制化开发情报分析模型与语义分析模型框架,内置通用的灾害事故抽取语义模型。训练中心支持扩展灾害事故识别能力和持续优化识别效果,用户可通过批量上传标注数据和反馈标注组件持续积累模型语料,来训练、发布更优的抽取模型。

三、系统架构及实现

基于应急知识图谱的灾害链分析及预警系统,建立灾害事故分析模型框架,提供基于知识图谱的构建工具。以图文可视化界面形式表现灾害事故链,并根据灾害事故发生发展的趋势给出事态发展的预警信息。

1. 知识建模(表示)

通过自然语言处理技术进行信息抽取模型训练,为系统提供:隐患、灾害、事故、灾害事故损失、人员伤亡、时间、地点,七类信息实体的抽取服务,将文本数据中的关键信息点进行标签化处理。

新书发布 |《数据科学技术: 文本分析和知识图谱》_数据

信息要素示例

通过知识图谱构建引擎进行信息消歧、节点融合、关系识别等一系列模型运算,将单文本中提到的灾害事故信息构建成具有发展变化关系的灾害事故链图谱(碎片级图谱)。

新书发布 |《数据科学技术: 文本分析和知识图谱》_数据科学_02

灾害链图谱示例

2. 系统架构

(1)技术架构

系统整体架构图如下图所示,采用B/S架构的方式进行开发,模块与功能基于REST接口服务架构进行设计与构建。系统包括:数据接入层、数据存储层、模型层、业务层,由下到上对数据进行接入、存储、知识抽取和服务应用。

新书发布 |《数据科学技术: 文本分析和知识图谱》_数据科学_03

系统架构设计

  • 数据接入层:通过统一数据接口对接外部数据,包括灾害事故新闻类数据和灾害事故预报类数据。系统间约定采用T+1形式进行数据传递,数据接入层通过对外数据接口监听数据接入请求,并对接入数据进行去重、文本分析预处理等工作。
  • 数据存储层:向下支持对系统接入数据的存储、管理,向上支撑知识抽取结果的存储、反馈数据的记录及算法模型的持久化服务。数据存储层,做为整个系统的数据核心和性能关键,采用多种数据库进行存储支撑,包括MySQL、图数据库、ES文本引擎、Redis等。
  • 模型层:系统的智能核心层,支撑灾害链路抽取、事件图谱构建、灾害链路图谱搜索等系统核心服务,是系统的智能核心和价值核心。语义模型训练中心模块为整个智能层的服务能力提供了扩展与迭代的支撑,它能够支持数据标注、灾害事故识别能力扩展、模型训练、模型服务等智能化闭环能力。
  • 业务层:面向用户提供业务服务能力,通过对灾害事故新闻的结构化、图谱化构建从而实现对数据的图谱搜索与分析,基于知识图谱的预警提示等智能应用场景。

(2)数据流程设计

数据流程如下图所示,主要包括:新闻数据的知识抽取、灾害事故链图谱的搜索和分析、预报预警服务、本体模型扩展与迭代。

新书发布 |《数据科学技术: 文本分析和知识图谱》_搜索_04

数据流程图

  • 新闻数据的知识抽取:系统主要通过知识图谱构建能力对输入到系统内的灾害事故新闻文本进行碎片级的知识图谱构建(支持人工调整、管理)。系统在碎片信息的基础上通过事件图谱构建引擎自动挖掘出相关同事件的新闻文本,并对灾害事故事件的全部相关碎片知识图谱进行融合,构建反映事件全貌的事件级知识图谱。
  • 灾害事故链图谱的搜索和分析:以事件级知识图谱数据为基础单位,系统收集、整理为灾害事故知识图谱,可通过对时间、空间、等级、灾害事故关系等条件的查询获取地图空间分布、灾害事故链图、数量分析、因果分析等结果。
  • 预报预警服务:基于灾害事故链图谱提供的搜索和分析能力,系统支持人工设置预警规则和相关处置知识库,用于在系统接入的预报文本数据中进行预警监听。当自动处理的预报文本数据触发预警规则时,系统会推送相关预警信息,并提供预警信息图谱,提示包括潜在灾害事故链概率与预防、处置措施。
  • 本体模型扩展与迭代:平台支持模型能力的持续优化及扩展,通过对业务文本数据的标注或用户自行整理上传标注数据集,可以迭代模型效果,持续优化平台图谱构建能力

该书是一本深入浅出的数据科学技术指南,适合具备Python和机器学习技术基础的高等院校学生、文本分析(或者自然语言处理)及知识图谱领域的算法工程师和研究机构的研究者阅读,也适合数据科学和人工智能领域的研究者作为参考书。

通过技术原理讲解和案例呈现,该书能够帮助读者全面了解数据科学的技术要点和前沿动态,深入掌握文本分析和知识图谱等关键技术,并为读者提供专业的技术知识和实践指导。希望通过本书,能够帮助数据科学从业者与爱好者更好地面对智能化浪潮的挑战与机遇。