文章出处:http://hiup.baidu.com/search2006 作者:小肯哥
都说今年是搜索引擎年。垂直搜索的概念一度被抄的很火。现在已经到了2006年年末。让我们现在来看看这些传说中的垂直搜索引擎的发展情况。
垂直搜索的核心技术实际上就是智能爬虫的技术,也就是说如何将定向或者非定向的网页抓取下来并进行分析后得到格式化数据的技术。那么衡量一个垂直搜索引擎的好坏主要有以下几个标准。
A.数据的更新频率
顾名思义,就是爬虫从目标网站上爬取数据的频率。
B.覆盖网站个数
覆盖尽量多的网站,对提供的信息数量将是一个保证。
C.单站有效数据抓取率
单个目标网站的有效数据,对数据量的多少有直接的影响。衡量一个爬虫的重要标准之一。
D.信息抽取完整率和准确率
此项指标的重要度不言而喻。信息的准确率和完整率直接关系到整个搜索引擎搜索结果的质量。
经过发展现有垂直搜索爬虫分为2种基本模式。
一、定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。
优势:
基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。
劣势:
目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。
二、语义爬虫全网爬取,爬虫根据语义识别,自动进行信息格式化分析,并存储。
优势:
1、全网非定向抓取目标网站,有效的保证信息数量。
2、不需要人工参与定制和维护模板,有效的保证了自身的人力和维护成本。
劣势:
相对于第一种模板匹配,根据语义来进行数据抓取,准确率略有下降。
现在大家对该如何衡量一个垂直搜索引擎应该有了一定的了解了吧
下面我们就将通过A.数据的更新频率B.网站覆盖率C.单站有效数据抓取率D.信息抽取完整率和准确率E.产品易用性,5个方面进行横向测评。
测试环境
IBM T43 512MB内存。
电信 4MB带宽。
并从各个行业中挑选了几个比较有代表性的垂直搜索引擎,进行分别测评。
名称:奇酷-折扣频道
网址:http://zhekou.qikooc.com
测试总评:
经过测试发现,除大城市之外,一些中小城市的信息量并不能让人满意。对于信息的准确度来说,做的还是非常不错的。
综合评价:★★★★
在站内随机抽取全国10城市,先后进行无关键字搜索测试。热点区域搜索和高级搜索测试。
综合测试后发现。一级城市和二级城市的数据信息量,与实际需求可能还存在一些差距。但总体表现不错。虽然偏远城市有信息。但更新频率不是很高。对于信息准确率,有个地做的不错。几乎没有看到有提取错误的信息。
综合评价: ★★★★
从信息上看数据提取的准确率是相当高的。而且结合家教,社会,校园,经验等多种类型的信息。
综合评价: ★★★★★
综合评价: ★★★
名称:去哪儿
网址:http://www.qunar.com
测试总评:
去哪儿在机票搜索上是比较具有代表性的一家垂直搜索引擎。实时搜索72家网站,可以看出它采用的的是定向抓取。
搜索结果也是相当精准的。对此笔者的适用还是相当的满意的。同样去哪儿的结果过滤功能也是非常方便的。
综合评价:★★★★
本篇文章只是对现有的各大垂直搜索引擎做了综合的评比。
下一篇笔者将对垂直搜索引擎的商业模式。及市场进行分析讨论。
欢迎大家继续关注。