sphinx 全文检索

最新推荐文章于 2024-06-22 07:30:00 发布

daicooper

最新推荐文章于 2024-06-22 07:30:00 发布

阅读量1k

点赞数

分类专栏： linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/daicooper/article/details/88372882

版权

linux 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

什么是全文检索

一、生活中的数据总体分为：

结构化数据：指具体有固定格式或有限长度的数据。如数据库，元数据等。

非结构化数据：指没有固定格式或不定长的数据，如邮件，word文档等。非结构化数据还有一种叫法：全文数据。

二、按数据的分类搜索也分为两种：

对结构化数据的搜索：

如对数据库的搜索：SQL语句。

如windows的搜索：文件名、类型、修改时间。

对非结构数据的搜索：

如windows对文件内容的搜索，linux 系统下用 grep 命令。

如搜索引擎：google 、百度可以搜索大量内容的数据。

对于非结构化的数据的搜索，也叫做对全文数据的搜索。

三、对全文数据的搜索可以分为两种：

1、顺序扫描：如要找内容包含某个字符串的文件，会一个文档一个文档的从头到尾的找，如 like 查找。

2、索引扫描：把非结构化数据内容提取出来一部分，重新组织，让它变得有结构化，这部分我们提取出来的数据就叫做索引。

四、全文索引大体分为两个过程：

索引创建（Indexing）和 索引搜索(Search)

索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。

索引搜索：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

三个重要问题

1、索引里面究竟存些什么？（Index）

2、如何创建索引？（Indexing）

3、如何对索引进行搜索？（Search）

1、索引里面究竟存些什么？

索引所保存的信息一般如下：

如上图，假设现在有 100 篇文章，文章的编号从 1 到 100 表示。

词典：保存的是一系列的字符串。

倒排表：指向包含字符串的文档列表。

比如说：我们要寻找既包含字符串 “Sphinx ” 又包含字符串 “php” 的文档，我们只需要以下几步：

1、取出包含字符串 “sphinx” 的文档链表。

2、取出包含字符串 “PHP”的文档链表。

3、通过合并链表找出即包含 “sphinx” 又包含 “php” 的文件。

2、如何创建索引？

全文索引的索引过程一般有以下几个步：

1、一些需要创建索引的文档( Documents) （对应mysql 的记录）

2、将原文文档传递给分成组件（Tokenizer）

3、将得到的词元（token）传给语言处理组件（Linguistic Processor）

4、将得到的词(Term)传递给索引组件(Indexer)。

3、如何对索引进行搜索？（Search）

搜索主要分为以下几步：

第一步：用户输入查询语句。

第二步：对查询语句进行词法分析，语法分析，及语言处理。

第三步：搜索索引，得到符合语法树的文档。

第四步：根据得到的文档和查询语句的相关性，对结果进行排序。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sphinx 全文检索

什么是全文检索一、生活中的数据总体分为：结构化数据：指具体有固定格式或有限长度的数据。如数据库，元数据等。非结构化数据：指没有固定格式或不定长的数据，如邮件，word文档等。非结构化数据还有一种叫法：全文数据。二、按数据的分类搜索也分为两种：对结构化数据的搜索：如对数据库的搜索：SQL语句。如windows的搜索：文件名、类型、修改时间。对非结构数据的搜...
复制链接

扫一扫

专栏目录

daicooper CSDN认证博客专家 CSDN认证企业博客

码龄12年

82: 原创

9万+: 周排名

2万+: 总排名

25万+: 访问

: 等级

2570: 积分

84: 粉丝

190: 获赞

50: 评论

791: 收藏

私信

关注

热门文章

分类专栏

前端 1篇
日记
javascript 12篇
linux 13篇
php 4篇
mysql 9篇
java 22篇
mysql 11篇
ELK 12篇
提升篇
CDN 2篇
nginx
操作系统 2篇

最新评论

fabric.js 知识点整理
daicooper: function objectMoving(e){ var obj = e.target; // mask 是限制区域, 实例化 canvas 的时候，挂载为 canvas 对象的一个属性 // mask 的属性包括{left:'',top:'',width:'',height:''} 四个值。 // 区域计算的时候还要考虑坐标系的设置：这个例子是 originX = 'center'，originY = 'center'，挂载在原型上。 // fabric.Object.prototype.originX = 'center'; // fabric.Object.prototype.originY = 'center'; // 移动的时候判断并修改相应的坐标。 // 小于横坐标最小值。 if(obj.top-obj.height*obj.scaleY/2 < obj.canvas.mask.top-obj.canvas.mask.height/2+obj.height*obj.scaleY/2){ obj.top = Math.max(obj.top, obj.canvas.mask.top-obj.canvas.mask.height/2+obj.height*obj.scaleY/2); }
fabric.js 知识点整理
daicooper: //小于纵坐标最小值 if(obj.left-obj.width*obj.scaleX/2 < obj.canvas.mask.left-obj.canvas.mask.width/2+obj.width*obj.scaleX/2){ obj.left = Math.max(obj.left, obj.canvas.mask.left-obj.canvas.mask.width/2+obj.width*obj.scaleX/2); } // 大于横坐标最大值。 if(obj.top+obj.height*obj.scaleY/2 > obj.canvas.mask.top+obj.canvas.mask.height/2){ obj.top = Math.min(obj.top, obj.canvas.mask.top+obj.canvas.mask.height/2-obj.height*obj.scaleY/2); } // 大于纵坐标最大值。 if(obj.left+obj.width*obj.scaleX/2 > obj.canvas.mask.left+obj.canvas.mask.width/2){ obj.left = Math.min(obj.left, obj.canvas.mask.left+obj.canvas.mask.width/2-obj.width*obj.scaleX/2); } }
fabric.js 知识点整理
daicooper: 这个很简单。在对象的moving 事件里判断对象的 x y 坐标。其中 x 坐标大于区域的横坐标的最小值并且小于区域横坐标的最大值。同理：选中对象的 Y坐标大于区域的纵坐标的最小值并且要小于区域纵坐标的最大值。最多 4个判断语句。
fabric.js 知识点整理
king_wsjking_wsj: fabric.js怎么阻止对象移动到画布内的限制区域之外，我看别的示例有个用到globalCompositeOperation: 'source-atop'，但加过背景后就不生效了
mysql复制--主从复制配置
ForeverAnt: 能解释下那些配置啥意思嘛？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。