12.1 个性化搜索
从技术角度,个性化搜索面临2个问题:如何建立用户的个人兴趣模型?在搜索引擎中如何使用这种模型?
个性化搜索的核心是根据用户的网络行为,建立一套准确的个人兴趣模型。全面收集与用户相关的信息源,包括用户搜索历史以及点击记录,用户浏览过的网页,用户e-mail信息,
用户所收藏的信息以及用户发布的信息,在此基础上建立用户兴趣模型。用户兴趣模型的表达方式也有很多种,比较常见的是从信息源抽取出关键字及权重,也可以将关键字映射到语义层
面的本体结构,或者是浏览文档形成的分级分类结构。
建好用户模型后,对于搜索引擎来说,如何使用这个用户模型也是需要考虑的问题,一般有2种不同的使用方式:一种比较常见的方式是对初次搜索结果重排序,利用用户当前的查询获取
排名前列的搜索结果,之后根据用户模型对这些搜索结果进行重新排序,排序原则与用户个人兴趣匹配的内容排名越靠前;另外一种方式是对用户的当前查询词直接进行扩展,即从用户兴趣
模型里找出与当前查询词相关的词汇,之后将用户查询改写为扩展的查询。
12.2 社会化搜索
传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性,还额外增加了一个维度,即搜索结果的可信赖性。社会化搜索系统关注4类关系:
1.直接有社交联系的成员
2.有相同兴趣的成员
3.领域专家
4.用户所加入网络社区的成员
12.3 实时搜索
实时搜索与传统的网页搜索有很大的差异。实时搜索的核心强调的是"快"。目前有2种:
1.与微博平台合作,又信息平台将最新的实时消息推送给搜索引擎
2.由爬虫实时抓取,如果爬虫无法满足信息的全面性,那么实时性也无法满足。
12.4 移动搜索
移动设备对搜索应用的需求与pc等不同,主要源于其与pc相比资源的有效性,比如手机的屏幕比较小,存储和计算能力比较弱。
12.5 地理位置感知搜索
智能手机不仅能获取用户所在位置的GPS信息,而且可以通过陀螺仪等手机内部设备感知用户的朝向,利用这种信息,可以为用户提供准确的地理感知信息及相关搜索服务。
12.6 跨语言搜索
12.7 多媒体搜索
目前主流的搜索还是基于文字的。多媒体形式除了文字外,主要包括图片,音频,视频等。多媒体搜索比纯文字搜索从技术上要复杂,一般多媒体包含4个主要步骤:
1.多媒体特征提取
2.多媒体数据流分隔
3.多媒体数据分类
4.多媒体数据索引搜索
多媒体特征抽取从原始的图片,音频或者视频中抽取出能够代表其内容的特征,文本形式一般以关键字作为特征的,而多媒体与此不同,比如图片和视频中的视觉特征,音频文件中
的音调,音高等信息。这样将原始的多媒体信息转换为内部特征标识,供后续步骤使用。
12.8 情境搜索
所谓情景搜索,就是能够感知人与人所处的环境,针对"此时此地此人"来建立模型。