基于数据库的搜索 | 基于spider抓取的站内搜索 | 全文检索站内搜索软技术 | |
网站 | 大部分网站,如中文BT联盟 | 部分中大型网站如俺要下载软件网 | 少量大型网站,如华军网 |
技术原理 | 数据库搜索 | 经Spider抓取网页,对html解析/分词/索引实现网页式站内搜索 | 对数据库数据进行html解析、分词,索引,实现站内搜索 |
数据容量 | 小于百万级 | 千万级以上 | 千万级以上 |
检索效率 | 秒级速度,准确度高, | 毫秒级速度,高速,准确度低 | 毫秒级速度,高速,准确度高 |
检索能力 | 不支持分词功能,无法完成全文检索,但可以用sql的单字索引功能实现最低级的全文检索 | 支持分词功能,但随数据量增加,搜索结果中垃圾信息比重上升,影响结果的排序和显示效果,严重影响精确度。只对静态页面进行搜索,动态页面数据无法抓取 | 支持分词功能,可对过关键字进行检索,可基于内容分析的排序方法。所有动态网页和没有链接的网页均可有效收录 |
抗压能力 | 差,随数据量上升,数据库压力增大,系统崩溃的危险系数高 | 抗压能力强,系统安全系数高 | 抗压能力强,系统安全系数高 |
结果精度 | 用户对搜索范围、内容和体现的结果无法精确控制 | 用户对搜索范围、内容和体现的结果无法精确控制 | 用户可对搜索的内容范围和体现的结果进行精确的控制 |
内容范围 | 可控制 | 不可有效控制,栏目无法精确控制 | 可有效控制,栏目控制精准 |
动态摘要 | 无 | 摘要内容不清晰各种垃圾信息过多 | 提供动态摘要,摘要清晰精确,便于用户快速寻找到所需信息 |
其他功能 | 1、无关键字飘红 | 1、有关键字飘红 | 1、有关键字飘红 |
关于站内搜索的方案对比
最新推荐文章于 2024-10-09 07:00:00 发布