KIM–a semantic platform for information extraction and retrieval http://www.ontotext.com/ http://www.ontotext.com/kim/index.html
需要跟踪的几个项目和团队
http://kmi.open.ac.uk/ kmi.open.ac.uk
1.2研究现状
基于 。 nt ology的信息抽取技术是一种把。ntology和信息处理技术结合起来实现
信息抽取的一种技术,它是现在信息抽取研究的一个热点,而且已经有了很多研究
X3[4115.与其它信息抽取方法相比,基于。ntology的信息抽取有它的优点。由于它是
基于。Ontology的抽取,因此这种方法对文档的结构没有依赖性61,从理论上讲,只耍
领域Ontology足够强大,它就能在该领域的信息抽取中达到很高的抽取准确率和召
回率。
1.2.1现有系统分析
基于 。n tology的信息抽取在目前己经有了很多研究,也有了不少的实验系统,
有的实验系统已经比较成熟。下边介绍几个应用系统的简单情况:
1.2.1.1 KEUOA系统
KEU O AE41 (KnowledgeEx tractionby U singan O ntology-basedA nnotationto ol),是
一种通过使用简单的用户定义的知识抽取模式(Knowledge extraction patterns)来从互
联网页上抽取知识结构的工具。这个系统由三个组件组成:
(1) 基 于 。atology的编辑(make-up)组件:它允许用户浏览本体和文档信息,并将
文档中相关信息按照相关本体概念标记信息。
(2) 学 习 组件:用来从示例中学习信息规则。
(3) 信 息 抽取组件:抽取实体之间的关系。
基于本体的信息抽取研究第一章引言
系统 使 用 机器学习组件(Crystal)从文本中学习规则(rules),开发了一个应用环境,
通过以下四个步骤来完抽取过程:
(1) 浏 览( Browse):提供了一个用户可以浏览、编辑和维护本体的环境(它采用
WebOnto环蜘,方便用户使用.
(2) 标 注 (Makeup):使用事先在Ontology上定义的标注集来标注文本。这里使用
KMI的。ntology(Ontology describing Knowledge Media Institute),从定义的每个类的
槽(slot)中抽取可能的标注集。
(3) 学 习 (Study):使用Crystal作为学习组件,从标注的文本中学习关系。Crystal
使用倒置(botom-up)方法,如果发现规则的特定实例,就归纳出这些规则。
(4) 信 息 抽取(InformationE xtraciton):从文本中抽取专门的(指定的脂息。比如
抽取KMi项目的名字,KMi的组织结构,及奖金,日期等等。
该系 统 把 模板驱动的信息抽取引擎和一个。ntology引擎集成起来了用来支持必
要的语义内赛并消除了抽取信息的二义性。
1.2.1.2 Artequakt系统
Art equ akt (Z1系统是从艺术家和绘画领域文档中抽取出艺术家的基本资料和他的
绘画作品,将其存放在知识库中,然后对知识库进行查询、检索,从而生成特定需求
的传记。
Art equ ak t将。ntology和知识抽取工具联合起来,利用。ntology提供连续的知识
支持并引导信息抽取过程。该抽取工具能搜索在线的文档,并把其中符合事先定义好
结构的知识抽取出来.它将抽取的知识保存在知识库中,并用一种机器能够理解的格
式来提供知识.另外,系统还提供了基于词典的术语扩展机制扩展。ntology内的术
语,以此加强知识抽取过程。
Art equ ak t的体系结构包括3个主要模块。第一是知识抽取工具,从句子或者段
落中搜集信息条目,从网络上文档中手工挑选或者通过适当的搜索引擎技术自动获
得.这种工具把信息段落和从Ontology词汇中产生的元数据传送到Ontology服务器.
第二是。ntology服务器,存储和强化信息,使得传记生成工具能够使用推理引擎来
查询KB知识库。第三是.Artequakt服务器,通过简单的界面接口把用户需求生成描
蒸俘引色...... 一一一一一一一一一一一一』I<T塑迪
述。用户可以提出特殊的传记请求,例如:编年形式的传记,概要类型的传记,或者
专注于艺术家的风格和主要工作等特殊的方面。服务器使用描述模板从KB知识库翻
译描述。
1.2.1.3 OFEE系统
OF EE [5]系 统全称叫Ontology-basedF uzzyE ventE xtraction,是一个基于。ontology
的汉语新闻摘要的模糊事件抽取代理系统。
OF EE 系 统包括信息检索代理(RetrievalA gent,R A),文件处理代理(Document
Processing Agent, DPA)和模糊推断代理任uzzy Inference Agent, FIA).事件。ntology
过滤器(Event Ontology Filter, EOF)通过提议算法产生事件抽取Ontology漪抽取的数
以DAML+OIL格式存放)。摘要代理(Summarization Agent, SA)基于事件抽取
Ontology生成电子新闻的摘要.
OF EE 系 统的体系结构如下:中文电子新闻Ontology由领域专家预先构建,并且
运用在由FIA和EOF运行的事件Ontology抽取中.OFEE代理包含3个子代理:RA,
DPA, FIA,并且由这三个子代理来执行电子新闻摘要的抽取工作。
首先 ,R A周期性自动从Intenret获取电子新闻,将这些电子新闻存储到电子新
闻知识库中。同时,它也把电子新闻发送给DPA和SA.在DPA中嵌入了一个由CKIP
(Chinese knowledge information processing group)开发的中文分词工具,来对中文电子
新闻进行分词处理.而且DPA还会对中文电子新闻进行术语过滤,发现其中非常重
要的中文术语,并且对这些术语进行标注,以便进行事件抽取。FIA利用中文术语集
和中文电子新闻Ontology推导出用于抽取电子新闻的事件。ntology, EOF得到中文
电子新闻Ontology和FIA推导出来事件抽取Ontology。最后SA将对这些基于事件
抽取Ontology处理的中文电子新闻进行总结和摘要。
除上 面 介 绍的系统外,还有很多基于Ontology的信息抽取研究工作[61h1[e][9)
Embley等人6提出了一个基于应用领域Ontology的非结构化文本信息抽取方法。根
据选定的训练集中的数据来确定本体中出现的概念和关系,建立本体;手工统计概念
和关系中出现的关键字,书写正则表达式作为抽取规则,然后根据规则进行抽取。文
献1刀把语法分析和。ontology结合起来,利用领域Ontology里的概念、关系、统计的
基于本休的信息抽取研究第一章引言
关键字自动生产抽取规则,然后对文章、句子的语法结构进行分析,最后利用规则对
文档进行标注与抽取。生成规则中的关键字等是由手工统计。
KIM is a platform for semantic annotation, search, and anaysis | wsmo4j is an API for building SWS applications compliant with WSMO | WSMO Studio is a Semantic Web Service integrated environment
| ||
ORDI Ontology Representation and Data Integration middleware, integrated with wsmo4j | OWLIM is the fastest and most scalable semantic repository with RDF(S) and OWL inference | PROTON is an light-weight upper-level ontology defining about 300 classes |
http://www.ontotext.com/publications/KIM_SAP_Abstract.htm
iswc2007.semanticweb.org
GATE is...
- the Eclipse of Natural Language Engineering, the Lucene of Information Extraction, a leading toolkit for Text Mining
- used worldwide by thousands of scientists, companies, teachers and students
- comprised of an architecture, a free open source framework (or SDK) and graphical development environment
- used for all sorts of language processing tasks, including Information Extraction in many languages
- funded by the EPSRC, BBSRC, AHRC, the EU and commercial users
- 100% Java reference implementation of ISO TC37/SC4 and used with XCES in the ANC
- 10 years old in 2005, used in many research projects and compatible with IBM's UIMA
- based on MVC, mobile code, continuous integration, and test-driven development, with code hosted on SourceForge
Some projects: SEKT (EC); TAO (EC); NEON (EC); LarKC (EC); MC (EC); MUSING (EC); AKT; PrestoSpace; KWeb; MMKM; ETCSL; MultiFlora; Service-Finder; more.
A sample of users: British Telecom; Imperial College; Hewlett Packard; OntoText; Perseus; Greenstone