自定义搜索引擎格式_搜索引擎框架介绍

一、搜索引擎基础介绍

1. 什么是搜索引擎

搜索引擎,通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。再经过复杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜索关键词的相关度高低(或与相关度毫无关系),依次排列。

2. 传统的搜索与搜索引擎对比

2.1 传统做法

(1)文档中使用系统的Find查找
(2)mysql中使用like模糊查询

存在问题:
(1)海量数据中不能及时响应,少量数据可以通过传统的MySql建立索引解决
(2)一些无用词不能进行过滤,没法分词
(3)数据量大的话难以拓展
(4)相同的数据难以进行相似度最高的进行排序

2.2 搜索引擎做法
(1)存储非结构化的数据
(2)快速检索和响应我们需要的信息,快-准
(3)进行相关性的排序,过滤等
(4)可以去掉停用词(没有特殊含义的词,比如英文的a,is等,中文: 这,的,是等),框架一般支持可以自定义停用词

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值