站内搜索引擎之比较〔转〕

有很多网站都在网页上加个“站内搜索引擎”、“搜索引擎”、“全文检索”等等相关字样。     

 用户一用,结果发现,既不能多关键组合查询,也不能支持国际语法,甚至不能支持全文检索,就更别谈不支持相关性排序等真正的搜索引擎具备的功能了。这些搜索和真正的站内搜索引擎有和区别呢?     

真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络蜘蛛模块。

分词、索引、排序这是全文检索的基本和核心,缺一不可。全文检索至少需要具备中文分词、索引、相关性排序功能。     

 所以简单考查一个站内搜索引擎的真伪只需要知道:能否实现相关性排序、国际标准的搜索语法、动态摘要、飘红、支持海量数据多并快速发查询、搜索耗时极短。(当然这只是全文检索的基本内容,一个全文检索的搜索引擎的品质好坏还和相关的技术水平、各种技术的结合、产品的管理有很大关系。 评价全文检索的标准是用户体验度,今后我们会提供相关方面的内容)

常用的站内搜索技术比较:

 基于数据库的搜索基于spider抓取的站内搜索全文检索者站内搜索软件系统
原理 数据库搜索通过Spider抓取网页,经html解析,分词,索引实现网页式站内搜索。对数据库数据进行html解析、图片缩略,分词,索引,实现站内搜索。
检索效率非常低下 消耗大量硬件资源高效高效
检索范围无法完成全文检索(可以用sql的单字索引功能最简单的完成索引功能实现最低级的全文检索),只能进行标题检索。 数据库效率太低,无法开展各种附加功能。网页检索 优点:不需要做各种工作,直接即可使用 缺点: 1.有大量的不必要的信息影响搜索结果的排序和显示的效果。严重影响精确度。 2.部分页面无法抓取到。 3.用户对搜索范围和内容以及体现的结果无法精确控制标题+内容 基于内容分析的排序方法。基于内容分析排序是最佳的排序方法。 标题和内容可控制,搜索结果准确到位。 内容可控,用户可对搜索的内容范围和体现的结果进行精确的控制
检索语法支持标准的国际搜索语法。支持标准的国际搜索语法。
动态摘要摘要内容不清晰各种垃圾信息过多提供动态摘要,摘要清晰精确,便于用户快速寻找到需要的信息。
关键词飘红
内容的范围可控制不可有效控制,动态网页抓取效果不佳,没有链接的网页无法抓取,页面出现杂乱信息影响搜索结果。对于时间控制也无法做到精准,对于栏目的归属无法做到准确。可有效控制,您可以把多个字段拆分合并,可以确定那些需要,哪些不需要。所有动态网页和没有链接的网页均可有效收入。 栏目控制精准。
图片缩略
同义词
相关性排序
其他低效率低质量的平台无法开展增值服务二次研发成本高具有持续不断的升级能力和良好的售后服务。
成本价格高 以产品形式运作,多家客户分摊成本,成本相对低廉。运维成本低。
维护成本 不大 维护量不大。程序维护无须投入,但是需要进行一定量的内容维护。 经过简单培训即可胜任。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值