垂直搜索:主题搜索理论(转)

主题搜索是指利用某种技术或工具,在Web上发现并获取与某个主题相关的资源的过程,主题搜索主要有以下几种:形式;


(1)手工搜索方式
手工搜索方式的工作流程是:资源采集者与用户交流-----得到用户需要的概念领域并选择恰当的关键词----通过用户提供的概念领域,下载搜索引擎目录下的相关主题资源,同时,向搜索引擎提供关键词-----汇总两方面采集的资源,并将专家和用户推荐的资源汇总-----资源采集者对结果进行评价-----反馈给用户-----根据满足度确定是结束任务还是修正检索策略,开始新的采集任务.
手工方式得到结果较准确,但存在人工干预多,效率低,成本高,系统更新能力差等问题,不适合大规模的资源建设.

(2)半自动方式
利用计算机软件代替人工将资源采集到本地,形成一个数据库,再经过人工评价,将评价结果返回用户.半自动方式的工作流程是:用户交互-----选择恰当的关键词----自动采集相关资源----形成主题资源数据库-----资源建设者对结果评价选择-----结果反馈给用户-----结束任务或修正检索式以开始新一轮的采集.与手工方式一样,半自动方式也同样不适合大规模的资源建设.

(3)通用爬行器方式
使用通用搜索引擎的爬行器技术,在万维网上采集所有主题的网页,然后进行主题识别与分类,形成各种主题目录下的数据库.Google正是在实现了大型搜索引擎之后,采用了ODP分类体系,推出了目录服务.通过爬行器方式的工作流程是:通用爬行器-----综合页面数据库----主题识别和分类-----各类主题数据库.
通用爬行器技术难度大,对软硬件要求高,建设和维护成本高,除了大型搜索引擎的目录系统使用这种方式外,一般的主题资源建设不适合采取这中方式.

(4)主题爬行器方式
为了提供面向特殊主题的服务,一些网站推出了主题搜索引擎.主题搜索引擎只爬行与主题可能的网页,使用主题资源的覆盖度更大,减少了系统的负担和软硬件的要求.主题爬行器方式的工作流程是:主题爬行器---主题页面数据库----主题识别和分类-----各类主题数据库.目前主题爬行器方式多用于垂直信息门户的主题资源建设.

(5)元搜索方式
利用分类表作为关键词,向多个大型搜索引擎提交,将每个搜索引擎的前若干个结果的并集作为搜索的原始结果,再对结果进行评价和反馈.元搜索技术简单,也是目前常用的一种方法,但不适合主题较宽泛的学科,因为这时分类目录中的主题词专指性太差,很容易发生主题漂移的现象.元搜索引擎方式的结果好坏,取决于主题对该方法的适应性,取决于个搜索引擎的检索效果,个搜索引擎反馈结果的取值太大,则可能得不到较好的查准率,取值太小,又可能得不到较好的召回率.


作者:Star Fate
此文章是本站改写一些图书而成
版权所有,转载时必须以链接形式注明作者和原始出处及本声明 !  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值