实体搜索

实体搜索

今年想写实体搜索方面的内容,与时间和地点相关的实体搜索,先搜集一下相关文献。 我在semantic scholar搜索Entity Search, 查到以下论文:

  • Time-Aware Entity Search in DBpedia
  • Improving Context and Category Matching for Entity Search
  • Query modeling for entity search based on terms, categories, and examples

Time-Aware Entity Search in DBpedia

@inproceedings{zhang2015time, 
title={Time-Aware Entity Search in DBpedia}, 
author={Zhang, Lei and Chen, Wentao and Tran, Thanh and Rettinger, Achim}, 
booktitle={European Semantic Web Conference}, 
pages={175--179}, 
year={2015}, 
organization={Springer} }

Abstract: Searching for entities is a common user activity on the Web. There is an increasing effort in developing entity search techniques in the research community. Existing approaches are usually based on static measures that do not reflect the time-awareness, which is a factor that should be taken into account in entity search. In this paper, we propose a novel approach to time-aware entity search in DBpedia, which takes into account both popularity and temporality of entities. The experimental results show that our approach can significantly improve the performance of entity search with temporal focus compared with the baselines.

摘要:Web上搜索实体是常见的用户行为,迫切需要实体搜索技术。已有的方法通常基于静态测量,没有考虑时间感知特性。本文提出一种在DBpedia中的时间感知的实体搜索方法,考虑实体的流行性(popularity)和时间性(temporality)。实验结果表明我们方法显著改善时间感知实体搜索的特性。

1 引言

建模时间感知实体搜索(time-aware entity search)任务: 给定实体集合 E=e1,e2,...,eN ,输入是用户查询 q=<s,t> q 包含一个实体名s和一个连续天数的时间范围 t={d1,d2,...,dM} ,其中 di 表示具体某一天,输出是在时间段 t 内匹配s的实体。

实际生活中,用户往往不能显示指定时间范围。这种情况下,系统容易使用用户提交查询当天和之前的一段时间作为时间间隔(比如,一个星期)。假设用户在2014-02-21搜索实体名Irving,希望搜到的实体是Kyrie Irving,此人在2014-02-17获得NBA总明星MVP奖。时间间隔可以被系统指定为从2014-02-15到2014-02-21之间的一个星期。

2 方法

每个DBpedia实体对应一个Wikipedia文章。为了对查询 q=<s,t> 实体排序,对每个实体 e 基于不同分量(componenets)计算评分Score(e,s,t)

  • 候选实体产生(Candidae Entity Generation)

给定一个查询实体名 s ,产生匹配s的候选实体集,记为 Es 。这需要提取每个实体表象形式(surface forms),也就是指向相应实体的单词或短语。Wikipedia提供一些结构关联实体和表象形式。我们利用Wikipedia中的下列结构:

(1)文章题目。每个Wikipedia文章标题一般代表实体最常用名字。
(2)重导向页面。一个重导向页面表示一个实体存在别名。
(3)消歧页面。当多个实体有相同名字,创建这些Wikipedia中消歧页面。
(4)超链接锚文本。Wikipedia文章包含带锚文本的超链接,这些超链接指向指代实体。


@inproceedings{Chen2014ImprovingCA,
  title={Improving Context and Category Matching for Entity Search},
  author={Yueguo Chen and Lexi Gao and Shuming Shi and Xiaoyong Du and Ji-Rong Wen},
  booktitle={AAAI},
  year={2014}
}

Abstract: Entity search is to retrieve a ranked list of named entities of target types to a given query. In this paper, we propose an approach of entity search by formalizing both context matching and category matching. In addition, we propose a result re-ranking strategy that can be easily adapted to achieve a hybrid of two context matching strategies. Experiments on the INEX 2009 entity ranking task show that the proposed approach achieves a significant improvement of the entity search performance (xinfAP from 0.27 to 0.39) over the existing solutions.

摘要:实体搜索是给定一个查询提取目标类型命名实体的有序列表。本文通过构建上下文匹配和类别匹配进行实体搜索。提出再排序策略,可以容易适应两种上下文匹配策略的混合。在INEX2009实体排序任务的实验表明提出方法获得显著改善。


Query modeling for entity search based on terms, categories, and examples

@article{Balog2011QueryMF,
  title={Query modeling for entity search based on terms, categories, and examples},
  author={Krisztian Balog and Marc Bron and Maarten de Rijke},
  journal={ACM Trans. Inf. Syst.},
  year={2011},
  volume={29},
  pages={22}
}

Abstract: Users often search for entities instead of documents, and in this setting, are willing to provide extra input, in addition to a series of query terms, such as category information and example entities. We propose a general probabilistic framework for entity search to evaluate and provide insights in the many ways of using these types of input for query modeling. We focus on the use of category information and show the advantage of a category-based representation over a term-based representation, and also demonstrate the effectiveness of category-based expansion using example entities. Our best performing model shows very competitive performance on the INEX-XER entity ranking and list completion tasks.


  • 加粗 Ctrl + B
  • 斜体 Ctrl + I
  • 引用 Ctrl + Q
  • 插入链接 Ctrl + L
  • 插入代码 Ctrl + K
  • 插入图片 Ctrl + G
  • 提升标题 Ctrl + H
  • 有序列表 Ctrl + O
  • 无序列表 Ctrl + U
  • 横线 Ctrl + R
  • 撤销 Ctrl + Z
  • 重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题,将某些文字标记为粗体或者斜体,创建一个链接等,详细语法参考帮助?。

本编辑器支持 Markdown Extra ,  扩展了很多好用的功能。具体请参考Github.

表格

Markdown Extra 表格语法:

项目价格
Computer$1600
Phone$12
Pipe$1

可以使用冒号来定义对齐方式:

项目价格数量
Computer1600 元5
Phone12 元12
Pipe1 元234

定义列表

Markdown Extra 定义列表语法: 项目1 项目2
定义 A
定义 B
项目3
定义 C

定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码,例如:

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''

脚注

生成一个脚注1.

目录

[TOC]来生成目录:

数学公式

使用MathJax渲染LaTex 数学公式,详见math.stackexchange.com.

  • 行内公式,数学公式为: Γ(n)=(n1)!nN
  • e2=3
  • 块级公式:

x=b±b24ac2a

更多LaTex语法请参考 这儿.

UML 图:

可以渲染序列图:

Created with Raphaël 2.1.0 张三 张三 李四 李四 嘿,小四儿, 写博客了没? 李四愣了一下,说: 忙得吐血,哪有时间写。

或者流程图:

Created with Raphaël 2.1.0 开始 我的操作 确认? 结束 yes no
  • 关于 序列图 语法,参考 这儿,
  • 关于 流程图 语法,参考 这儿.

离线写博客

即使用户在没有网络的情况下,也可以通过本编辑器离线写博客(直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。

用户写博客的过程中,内容实时保存在浏览器缓存中,在用户关闭浏览器或者其它异常情况下,内容不会丢失。用户再次打开浏览器时,会显示上次用户正在编辑的没有发表的内容。

博客发表后,本地缓存将被删除。 

用户可以选择 把正在写的博客保存到服务器草稿箱,即使换浏览器或者清除缓存,内容也不会丢失。

注意:虽然浏览器存储大部分时候都比较可靠,但为了您的数据安全,在联网后,请务必及时发表或者保存到服务器草稿箱

浏览器兼容

  1. 目前,本编辑器对Chrome浏览器支持最为完整。建议大家使用较新版本的Chrome。
  2. IE9以下不支持
  3. IE9,10,11存在以下问题
    1. 不支持离线功能
    2. IE9不支持文件导入导出
    3. IE10不支持拖拽文件导入


  1. 这里是 脚注内容.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值