(3)使用Lucene、LingPipe做实体链接(Entity Linking)——思路描述

本文介绍了使用Lucene和LingPipe进行实体链接的方法。首先从DBpedia下载实体数据和含歧义实体信息,然后通过预处理提取关键信息。接着,利用LingPipe进行实体识别,Lucene建立有歧义实体的索引。当获取用户输入时,通过比较上下文相似度确定最可能的实体。最后,根据返回结果在网页上展示,处理有无歧义的实体链接。
摘要由CSDN通过智能技术生成




思路:

从DBpedia下载实体数据、含歧义的实体数据。


使用python对下载的数据做一些预处理,主要是提取实体、提取有歧义的实体的映射关系、提取有歧义的实体的上下文。

	long_abstracts_preprocessing_entity(file_contents_examples)如下:
		Animalia (book)

	long_abstracts_preprocessing(file_contents_examples)如下:
		Animalia (software)=>atlas:1 rand:1 shrugged:1 list:1 characters:1 
		Animalia (book)=>gold:1 copies:1 illustrated:1 edition:3 tenth:1 children:1 special:1 1986:1 anniversary:3 graeme:1 book:1 embossed:1 25th:1 2012:1 animalia:1 sold:1 base:1 numbered:1 1996:2 originally:1 signed:1 jacket:1 published:2 

	disambiguations_preprocessing(file_contents_examples)如下:
		Animalia=>Animalia (law)<=Animalia (software)


使用LingPipe做实体识别。


使用Lucene对所有有歧义的实体的映射关系建立索引(index1)。


使用Lucene对所有有歧义的实体的上下文建立索引(index2)。


构建网页,获取用户输入,并传入后台处理。处理思路:
	使用LingPipe识别出输入中的所有实体(比如,Alien),对每一个实体作如下处理:
		从index1中查询该实体是否属于有歧义的实体,如果不是,则直接作为返回结果;如果是:
			将index1中提供的所有可能的有歧义的实体(比如,Alien (law)、Alien (software))提取出来,对每一个这样的有歧义的实体:
				从index2中查询出该实体的上下文信息(比如,Alien (law)=>gold:1 copies:1 illustrated:1 edition:3 tenth:1):
				判断该有歧义的实体的上下文和用户输入的内容(即,LingPipe识别出的实体的上下文)进行比较,计算相似度,返回得分
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值