Temporal Information Introduction
摘要
这个研究主要提供关于时间信息检索的方法,专注于以下几个问题:
- 什么是时间动态
- 为什么会存在
- 什么时候以及如何使用时间信息在搜索周期和结构上。
本文结构如下:
- First,广泛的讲解时间动态
- Next,主要针对一些研究的问题和时间特征带来的影响进行讲解
- 讲解了如何一些特别的时间信息
- 展示了一些现有的时间检索系统和应用,包括,探索,摘要,搜索结果聚类,以及时间信息的未来发展方向
简介
1. 时间动态
值得注意的是,时间维度在很多方面都有着广泛的应用,比如主题检测和追踪(TDT, Topic Detection and Tracking)12,还有兴起趋势检测(ETD,Emerging Trend Detection)3. 在本文我们关注于网页的演变和在网页搜索以及数据挖掘上的研究。网页的演变有很多方面,包括网页大小,内容,结构,以及人们接触的方式,这样的演变之前已有过研究4 5。为了研究网页的演变,我们从解释时间动态开始,也就是网页随着以下两种分类的演变:1. 内容和结构的演变 2. 用户查询行为的演变
1.1 内容和结构的改变
最著名的一个网页档案馆是 Internet Archive,收集保留了从1996年起超过4560亿的网页,另一个是***British Library***。如下图所示,文档集可以被分成静态/动态,以及版本化和非版本化几个种类。
如图,我们可以看出,静态且无版本化的是比较权威和重要的内容,比如新闻文档,有New York Times, the Times, and Zeit. 动态的也就是一直保持更新的有社交媒体等,例如youtube, wechat, Facebook等。而网页文档就虽然是静态的,但是是有很多版本的,例如1998年的谷歌搜索界面,跟现在的谷歌搜索洁面。一方面,网页档案可以由于定期的访问和爬虫来创建。一个网页档案会包含多个版本因为每一个新的版本都会添加到网页档案中。另一方面,有些网页文档仅仅含有一个版本比为非版本化的政策。例如,新闻档案,实时网页数据。与内容变化的同时,网页的结构也在变化。这两个变化影响了一些基本的过程,例如爬虫和索引,还会影响网页排名和垃圾邮件检测。
1.2 用户习惯的改变
Temporal web dynamics与用户的搜索习惯也有联系。
- 例如搜索流量与某些含有季节性或者时间突发事件相关。这类事件的特征是在某些特定时间会有峰值的出现(个人理解),例如,像lady gaga,马拉松等。
- 有些词条自带时间敏感属性,也就是说这些词条指的是某一特定的时间区间。例如,巴西FIFA世界杯指的是2014FIFA年世界杯。我们将这类查询分成两类:
(1)显示时间查询,例如 2016年美国总统大选
(2) 隐式时间查询 , 例如 巴西FIFA世界杯,很有可能指的是2014年的世界杯,或者1950年的历史事件。隐式时间查询的时间意图可以通过时间信息的提取技术来猜测和判断。时间查询在查询中占有很大的一个比例,根据文献6,显示13.8%的查询是显示时间查询,和17.1%的查询是隐式时间查询。
2. 研究的范围和目的
包含了整个处理过程:获取网页文档,文档处理和索引,信息提取,查询。这个调查可以用来基础教学,同时可以用来发现未来的方向7 8. 文档的大纲如下:
章节 | 内容 |
---|---|
Section 2 | 时间文档集的预处理:动态爬虫,时间索引 |
Section 3 | 识别和提取时间信息的方法 |
Section 4 | 确定时间查询意图的方法,术语随时间改变的影响 |
Section 5 | time-aware的排序方法的比较 |
Section 6 | 时间维度在IR中的应用 |
Section 7 | 未来趋势 |
Allan, 1998 : “On-line New Event Detection and Tracking”,ACM SIGIR ↩︎
He, 2007: “Analyzing Feature Trajectories for Event Detection.”. ACM SIGIR ↩︎
Berry, 2003: “Survey of Text Mining: Clustering, Classification, and Retrieval” ↩︎
Ke, 2006: “Web Dynamics and Their Ramifications for the Development of Web Search Engines” ↩︎
Risvik, 2002: “Search engines and Web Dynamics” ↩︎
Zhang, 2010: “Learning Recurrent Event Queries for Web Search” ↩︎
Alonso, 2011b : “Temporal Information Retrieval :Chanllenges and Opportunities” ↩︎
Campos and Adam, 2014b: “Survey of Temporal Information Retrieval and Related Applications.” ↩︎