知识图谱内容调研

最新推荐文章于 2022-07-16 00:58:08 发布

BENULL

最新推荐文章于 2022-07-16 00:58:08 发布

阅读量1.7k

点赞数

分类专栏：论文阅读文章标签：人工智能

本文链接：https://blog.csdn.net/qq_32815807/article/details/114301061

版权

知识图谱内容调研

是什么

知识图谱的本质是揭示实体之间关系的语义网络。利用实体和关系来表达客观世界的对象以及不同对象之间存在的关系，提供了组织、管理和理解海量非结构化信息的能力，且对信息的刻画方式更接近于人类认知世界的形式。例如，实体“《静夜思》”和实体“李白”之间存在关系“创作者”，其结点代表实体（Entity）或者概念（Concept），边代表实体或概念之间的各种语义关系。

解决什么问题

由于互联网数据存在着多元异构性和高度动态性，并且内容丰富涉及范围广，不同的数据之间存在复杂的关联性。因此传统的数据存储、管理和查询模式已经无法满足当今人们对知识的需求。开发者希望能够从海量互联网数据中获取并管理有效的信息，同时让计算机自动理解并分析网络数据中的内容，从而准确、高效的挖掘数据资源中所蕴含的价值信息。知识图谱技术的提出为更好地组织、管理和理解互联网中的海量信息提供了一种行之有效的解决方案，其知识表达的方法也更接近人类认知世界的形式。

现有的视频目标信息挖掘主要还是人工操作，大部分摄像头所录制的视频只有经过人眼查看才能发现视频中的有效监控信息，面对海量的视频，有限的人力很难避免遗漏视频中的一些重要信息，且耗费了大量的人力，没有展现出很好的智能性。如何基于海量的视频，构建一套自动化方法，对视频进行信息提取，挖掘视频中潜在的有效信息，是当今智能化时代的趋势。

基于视频知识库的构建是一个创新性的方法，能够对大量的视频自动化地提取有效信息，知识图谱是基于文本的知识库的构建，视频图谱在监控视频上构建语义信息。视频图谱有很高的实际应用价值，比如在公安领域，通过构建视频图谱，能够挖掘出频繁同行的犯罪团伙；在住宅小区或者工厂等小型区域，可以区别常驻人员和外来人员。视频图谱的构建和挖掘研究大大降低了人力成本，系统性地构建了监控视频中的行人、车辆、物品等关系模型，可用于快速信息检索等方面。因此，研究一种基于监控视频的视频图谱构建和挖掘方法具有很高的价值。

研究现状及发展趋势

知识图谱构建应用实践

在知识图谱发展的早期阶段，知识的来源主要依赖于各种百科全书、网络词典文集和百科网站等结构化数据，并且通过人工协作的方式构建完成，期间具有代表性的工作包括YAGO，DBpedia和Freebase等知识库。由于知识图谱技术的快速普及与应用，少量的结构化数据已无法满足人们的需求，因此现阶段知识图谱中的数据来源主要是互联网海量纯文本等非结构化信息，并采用开放域信息抽取技术自动构建，代表性成果包括谷歌公司的KnowledgeVault和卡耐基梅隆大学的NELL（Never-EndingLanguageLearning）项目等，相关成果如下图

在这里插入图片描述

国外在知识图谱的构建方面获得的重要进展主要为谷歌公司所开发的Knowledgevault，将维基百科作为基础的Freebase以及DBpedia，其中Freebase将维基百科作为数据来源，并从中抽提结构化数据，借助人工编制的形式完成了2000余万条实体的构造，逐渐成为了Google知识图谱重要构成内容。DBpedia则是由莱比锡大学与曼海姆大学共同开发的跨语言知识库，同样将维基百科作为基本数据来源，使用固定模式将结构化信息抽提出来，采用关联的形式发布信息。DBpedia具备了4000余万条实体和5亿件事实信息。国内当前所发布知识图谱产品包含了百度知心、搜狗知立方以及清华大学所开发的XLore、上海交大开发的Zhishi.me等。

以上这些知识库都是基于网页中的文本数据构建而成的，只能够回答关于文本中的一些相关问题。一些学者也尝试为图像构建知识库，如斯坦福大学李菲菲团队构建的VisualGenome知识库，其使用“众包”方式对108249个图像进行解析，提取了420万个区域描述、170万个可视问答、210万个对象实例、180万个属性和180万个关系。基于该知识库，构建一系列的智能检索和分析应用，如基于场景图（SceneGraph）的图像检索、可视自动问答。和图像标题自动生成等。

现有的知识库主要面向文本数据，面向图像的只有VisualGenome，而面向监控视频数据的知识库仍然空缺。知识库是对原始数据进行语义理解和分析之后的中间结果，相对来说，面向文本的知识库构建更为容易，而图像和视频数据的知识库构建难度更大。鉴于监控视频大数据的数据量之大，很难像VisualGenome一样用“众包”方式构建，因而需要用自动化方式对监控视频进行解析。此外，知识库是为上层智能分析和查询服务，因此面向监控视频大数据的知识库需要紧扣监控视频分析应用需求。

知识图谱构建技术

目前知识图谱的构建技术研究基本还是针对文本信息，自然语言的研究。

命名实体识别技术

在进行文本处理之前，需要进行命名实体识别，此时要用到命名实体识别技术，这是自然语言处理的前置任务。伴随着大数据技术以及人工智能技术的持续发展，研究者对于命名实体识别任务所开展的研究工作日益增多，相关技术获得了持续发展，并取得了突出成绩。在应用不断深入的背景下，命名实体识别慢慢成为情感分析、语义检索、自动问答以及机器翻译等研究工作的前提和基础。比如如何从大量非结构化语料文本中自主、精确的将命名实体抽提出来，已经成为了国内外学术界关注的焦点。国外在很早之前就开始了对命名实体识别的研究，并不断深入。目前，国外学者所开展的研究工作更加倾向于采用监督、半监督机械学习方法识别用英文语料文本，针对规则、方法所开展的研究工作已经非常少见。在英文语料文本的识别中经常采用的模型、方法包括了最大熵模型、隐马尔可夫模型、决策树、条件随机等。不同于英文语料文本，中文识别难度较大，国内学者从国外研究成果中抽提出了有效的方法，结合中文的实际情况，对其展开了有效地探索。经常使用的方法通常是人工从语料当中抽提出特征，结合数学模型对其命名实体识别。从研究成果上看，俞鸿魁等人创造性的给出层叠隐马尔可夫模型，把多种实体类型识别融入到了具体的数学模型中，最终结果表明其能够更加容易的发现未登录实体，同时对于复合实体的识别也有一定的促进作用。周俊生将中文实体前后缀作为特征，将条件随机场方法作为基础，对人民日报语料展开了分析，并获得了良好的结果。随着研究的不断深入，更多实验结果表明，条件随机场也能够用于识别中文命名实体，把条件随机场作为前提与基础的命名实体识别技术开始受到了学术界的普遍肯定。

关系抽提技术

在上世纪九十年代，MUC-7率先公布了实体关系抽提相关研究任务，其被看做是信息抽取子任务。伴随着MUC停办，ACE会议完全接替了MUC内容，继续研究以预料文本作为基本内容的自动抽取方法。ACE工作核心为信息抽取，在实际工作的开展进程中需要不断地拓展工作牵涉到的各个领域及不同的语言。这两个会议对于自然语言处理任务中信息抽提的进一步发展有着积极的推动作用。在人工智能、大数据等相关技术的发展背景下，人们将更多的关注点集中在信息抽提技术层面，并且将其看做是信息抽取工作的前置任务，关系抽取也开始得到了诸多学者的广泛关注，他们为了完善与健全关系抽取理论而源源不断地投入精力，共同推动抽提技术的有序发展，在实际应用中广泛应用关系抽取研究成果。关系抽取的对象为非结构化语料文本，目前研究方法包含了基于模型匹配、机器语言以及语义网络等诸多内容。ChinatsuAone等人借助模式匹配思想构建了关系抽提系统，通过人工编写关系抽取规则，保证了文本和抽取规则之间的匹配度，得到了实体关系实例。该系统采用了相对灵活的架构模块，利用规则、模块不断地修改、完善该系统。RomanY构造了Proteus系统，其是一种基于样本泛化的关系抽取模式，用户可以对存在特定类型关系demo展开分析，总结关系特征，并且把关系特征抽象为特定的模型，该系统可以获得良好实验效果。