mysql base64 图片php_robbe+base64+Mysql简易有效的php全文索引实现

最新推荐文章于 2024-01-31 23:08:43 发布

weixin_39750195

最新推荐文章于 2024-01-31 23:08:43 发布

阅读量108

点赞数

文章标签： mysql base64 图片php

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39750195/article/details/113423906

版权

确实有很多方法来给php提供全文索引功能。

例如：

1。solr或者lucene，(需要安装对应的php客户端扩展)。

2。sphinx

3。基于任何一个数据库(key/value的最好)的模拟实现。

4。Mysql的全文索引。

5。自己给php加上全文索引扩展。(就因为这一点，可以说有太多的实现方法了)

本文要介绍的是第四种，使用MySQL的全文索引来实现php的全文检索功能。

一。前提

MySQL数据表引擎要是MyISAM (Mysql的ISAM索引结构的实现)

二。准备：

假设建立如下一个简易的文章表格：

+------+---------+-----------+--------------------------------------+

| Id | title | author | content | c_idx(text,fulltext) |

+------+---------+-----------+------------------------------------+

其中content为原文，c_idx为中文分词后的base64编码串接字符串，并且为fulltext索引。

请看下文。

三。实现分析：

1。如果要被检索的内容是英文的，那么要做的事情很简单，给要检索的字段加上一个fulltext索引就可以了。

2。如果被检索的内容是CJK字符集合或者是CJK和英文的混合的话那问题就来了。(我们都知道，MySQL的全文索引不支持中文分词)。

能不能把分词之后中文转换成英文呢？

对，我就是这么想的：

将文章内从content字段的内容进行中文分词，然后将得到的词条转换成英文，再将转换后的词条使用空格串接起来，写入数据库即可。

这需要解决两个问题：

(1).中文分词：

这是搜索引擎的难点之一。速度和准确率是其瓶颈所在。

这里我推荐本人的开源php中文分词扩展robbe，robbe是建立在开源高性能中文分词组建friso上的一个php扩展。也是鄙人的作品。分词速度和准确率都不错。

(2).将中文字符串转换成英文字符串：

使用什么编码呢？想来想去，试来试去，发现base64编码最适合了。(如果有发现更好的编码，请比吝赐教测叫，在此先谢了)。

base64的编码和解码速度都很快。

另外编码后的文本所占的空间比编码前的文本只多一点(比原来长1/3)。

(另外，base64编码后的字符串中可能会包含+和/字符，会影响要MySQL对英文分词，所系需要手动替换一下)

四。具体实现：

$content = $_POST['content']; //过滤什么的，就是你的事情啦。

//1.使用复杂模式，对文本进行分词。

//@see robbe文档 https://code.google.com/p/robbe/wiki/RobbeFunctions

$_result = rb_split($content, __RB_COMPLEX_MODE__);

//2.进行base64编码，并且使用空格串接分词结果。

$_str = '';

foreach ( $_result as $_value ) {

$_str .= ' '.base64_encode($_value);

}

//3.写入文本到fulltext数据表中。

?>

1.查询SQL：

select 字段列表 from #_table where Match(c_idx) Against(检索字符串);

或者：

select #_files, Match(c_idx) Against(检索字符串) AS rank from #_table order by rank

返回的结果是自动根据相关度排序的。

2.或者使用bool模式：

select #_files from #_table where Match(c_idx) Against(检索字符串 IN BOOLEAN MODE)

常用布尔操作符：

+ 包含，词必须存在。

- 排除，词必须不出现。

> 包含，而且增加等级值

() 吧词组合成一个表达式。

~ 取消一个词的排序值。

* 词尾通配符。

"" 定义一个短语。

例如：

select content from article where Match(c_idx) Against('+你好的base64编码字符串 +我们的base64编码字符串' IN BOOLEAN MODE)

查询包含你好和我们的记录。

-----------------------------------------------

select content from article where Match(c_idx) Against('你好的base64编码字符串我们的base64编码字符串' IN BOOLEAN MODE)

查询至少包含“你好”和“我们”中的一个的记录。

-----------------------------------------------

select content from article where Match(c_idx) Against('“你好的base64编码字符串我们的base64编码字符串”' IN BOOLEAN MODE)

搜索匹配短语：“你好我们”

-----------------------------------------------

select content from article where Match(c_idx) Against('>你好的base64编码字符串

匹配“你好”和“我们”，并且增加“你好”的等级，减少“我们”的等级。

3.使用查询扩展：4.11或者更高版本才支持。

select #_files from #_table where Match(c_idx) Against(检索字符串 WITH QUERY EXPANSION)

五。效率分析：

对于一般数据来的网站，例如：个人博客，企业文章，新闻什么的，(60W以下的数据记录条数)

使用此方法可以比较好的解决搜索问题，但是数据量大时，并不是很好的解决办法。

30W的数据记录(平均大小10K)，平均查询0.02sec的样子。还算不错吧。

索引的内容不一定是全文(即c_idx字段的内容)，可以是人工筛选后的核心性词组合。那样可以达到更好的检索效果和更快的检索速度。

weixin_39750195

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mysql base64 图片php_robbe+base64+Mysql简易有效的php全文索引实现

确实有很多方法来给php提供全文索引功能。例如：1。solr或者lucene，(需要安装对应的php客户端扩展)。2。sphinx3。基于任何一个数据库(key/value的最好)的模拟实现。4。Mysql的全文索引。5。自己给php加上全文索引扩展。(就因为这一点，可以说有太多的实现方法了)本文要介绍的是第四种，使用MySQL的全文索引来实现php的全文检索功能。一。前提MySQL数据表引擎要是...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。