Ontology-based Information Extraction KIM GATE等开源项目

最新推荐文章于 2024-09-27 00:45:01 发布

weixin_30551963

最新推荐文章于 2024-09-27 00:45:01 发布

阅读量162

点赞数

文章标签： java 测试开发工具

原文链接：http://www.cnblogs.com/tjuiems/archive/2008/10/01/1302695.html

版权

KIM–a semantic platform for information extraction and retrieval http://www.ontotext.com/ http://www.ontotext.com/kim/index.html

http://www.semantic-gov.org/

需要跟踪的几个项目和团队

http://kmi.open.ac.uk/ kmi.open.ac.uk

http://www.ontotext.com/

http://gate.ac.uk/

1.2研究现状
基于。 nt ology的信息抽取技术是一种把。ntology和信息处理技术结合起来实现
信息抽取的一种技术，它是现在信息抽取研究的一个热点，而且已经有了很多研究
X3[4115.与其它信息抽取方法相比，基于。ntology的信息抽取有它的优点。由于它是
基于。Ontology的抽取，因此这种方法对文档的结构没有依赖性61，从理论上讲，只耍
领域Ontology足够强大，它就能在该领域的信息抽取中达到很高的抽取准确率和召
回率。
1.2.1现有系统分析
基于。n tology的信息抽取在目前己经有了很多研究，也有了不少的实验系统，
有的实验系统已经比较成熟。下边介绍几个应用系统的简单情况:
1.2.1.1 KEUOA系统
KEU O AE41 (KnowledgeEx tractionby U singan O ntology-basedA nnotationto ol)，是
一种通过使用简单的用户定义的知识抽取模式(Knowledge extraction patterns)来从互
联网页上抽取知识结构的工具。这个系统由三个组件组成:
(1) 基于。atology的编辑(make-up)组件:它允许用户浏览本体和文档信息，并将
文档中相关信息按照相关本体概念标记信息。
(2) 学习组件:用来从示例中学习信息规则。
(3) 信息抽取组件:抽取实体之间的关系。
基于本体的信息抽取研究第一章引言
系统使用机器学习组件(Crystal)从文本中学习规则(rules)，开发了一个应用环境，
通过以下四个步骤来完抽取过程:
(1) 浏览( Browse):提供了一个用户可以浏览、编辑和维护本体的环境(它采用
WebOnto环蜘，方便用户使用.
(2) 标注 (Makeup):使用事先在Ontology上定义的标注集来标注文本。这里使用
KMI的。ntology(Ontology describing Knowledge Media Institute)，从定义的每个类的
槽(slot)中抽取可能的标注集。
(3) 学习 (Study):使用Crystal作为学习组件，从标注的文本中学习关系。Crystal
使用倒置(botom-up)方法，如果发现规则的特定实例，就归纳出这些规则。
(4) 信息抽取(InformationE xtraciton):从文本中抽取专门的(指定的脂息。比如
抽取KMi项目的名字，KMi的组织结构，及奖金，日期等等。
该系统把模板驱动的信息抽取引擎和一个。ntology引擎集成起来了用来支持必
要的语义内赛并消除了抽取信息的二义性。
1.2.1.2 Artequakt系统
Art equ akt (Z1系统是从艺术家和绘画领域文档中抽取出艺术家的基本资料和他的
绘画作品，将其存放在知识库中，然后对知识库进行查询、检索，从而生成特定需求
的传记。
Art equ ak t将。ntology和知识抽取工具联合起来，利用。ntology提供连续的知识
支持并引导信息抽取过程。该抽取工具能搜索在线的文档，并把其中符合事先定义好
结构的知识抽取出来.它将抽取的知识保存在知识库中，并用一种机器能够理解的格
式来提供知识.另外，系统还提供了基于词典的术语扩展机制扩展。ntology内的术
语，以此加强知识抽取过程。
Art equ ak t的体系结构包括3个主要模块。第一是知识抽取工具，从句子或者段
落中搜集信息条目，从网络上文档中手工挑选或者通过适当的搜索引擎技术自动获
得.这种工具把信息段落和从Ontology词汇中产生的元数据传送到Ontology服务器.
第二是。ntology服务器，存储和强化信息，使得传记生成工具能够使用推理引擎来
查询KB知识库。第三是.Artequakt服务器，通过简单的界面接口把用户需求生成描
蒸俘引色...... 一一一一一一一一一一一一』I<T塑迪
述。用户可以提出特殊的传记请求，例如:编年形式的传记，概要类型的传记，或者
专注于艺术家的风格和主要工作等特殊的方面。服务器使用描述模板从KB知识库翻
译描述。
1.2.1.3 OFEE系统
OF EE [5]系统全称叫Ontology-basedF uzzyE ventE xtraction，是一个基于。ontology
的汉语新闻摘要的模糊事件抽取代理系统。
OF EE 系统包括信息检索代理(RetrievalA gent,R A)，文件处理代理(Document
Processing Agent, DPA)和模糊推断代理任uzzy Inference Agent, FIA).事件。ntology
过滤器(Event Ontology Filter, EOF)通过提议算法产生事件抽取Ontology漪抽取的数
以DAML+OIL格式存放)。摘要代理(Summarization Agent, SA)基于事件抽取
Ontology生成电子新闻的摘要.
OF EE 系统的体系结构如下:中文电子新闻Ontology由领域专家预先构建，并且
运用在由FIA和EOF运行的事件Ontology抽取中.OFEE代理包含3个子代理:RA,
DPA, FIA，并且由这三个子代理来执行电子新闻摘要的抽取工作。
首先，R A周期性自动从Intenret获取电子新闻，将这些电子新闻存储到电子新
闻知识库中。同时，它也把电子新闻发送给DPA和SA.在DPA中嵌入了一个由CKIP
(Chinese knowledge information processing group)开发的中文分词工具，来对中文电子
新闻进行分词处理.而且DPA还会对中文电子新闻进行术语过滤，发现其中非常重
要的中文术语，并且对这些术语进行标注，以便进行事件抽取。FIA利用中文术语集
和中文电子新闻Ontology推导出用于抽取电子新闻的事件。ntology, EOF得到中文
电子新闻Ontology和FIA推导出来事件抽取Ontology。最后SA将对这些基于事件
抽取Ontology处理的中文电子新闻进行总结和摘要。
除上面介绍的系统外，还有很多基于Ontology的信息抽取研究工作[61h1[e][9)
Embley等人6提出了一个基于应用领域Ontology的非结构化文本信息抽取方法。根
据选定的训练集中的数据来确定本体中出现的概念和关系，建立本体;手工统计概念
和关系中出现的关键字，书写正则表达式作为抽取规则，然后根据规则进行抽取。文
献1刀把语法分析和。ontology结合起来，利用领域Ontology里的概念、关系、统计的
基于本休的信息抽取研究第一章引言
关键字自动生产抽取规则，然后对文章、句子的语法结构进行分析，最后利用规则对
文档进行标注与抽取。生成规则中的关键字等是由手工统计。

Technology


KIM is a platform for semantic annotation, search, and anaysis	wsmo4j is an API for building SWS applications compliant with WSMO	WSMO Studio is a Semantic Web Service integrated environment

ORDI Ontology Representation and Data Integration middleware, integrated with wsmo4j	OWLIM is the fastest and most scalable semantic repository with RDF(S) and OWL inference	PROTON is an light-weight upper-level ontology defining about 300 classes

http://www.ontotext.com/publications/KIM_SAP_Abstract.htm

iswc2007.semanticweb.org

http://gate.ac.uk/

GATE is...

the Eclipse of Natural Language Engineering, the Lucene of Information Extraction, a leading toolkit for Text Mining
used worldwide by thousands of scientists, companies, teachers and students
comprised of an architecture, a free open source framework (or SDK) and graphical development environment
used for all sorts of language processing tasks, including Information Extraction in many languages
funded by the EPSRC, BBSRC, AHRC, the EU and commercial users
100% Java reference implementation of ISO TC37/SC4 and used with XCES in the ANC
10 years old in 2005, used in many research projects and compatible with IBM's UIMA
based on MVC, mobile code, continuous integration, and test-driven development, with code hosted on SourceForge