MYSQL中文全文索引解决方案

因为觉得这是现在mysql中文全文索引的一个解决办法就把它贴过来了

这只是个缓军之计,更完美的方法,只能等待官方的支持或者自己编译带补丁的MySQL
以下方法并非本人原创,原作者为walkerlee
首先,我们来想想MySQL不支持中文索引的关键原因还是中文是双字节的,如果能把中文转换成单字节的字母或数字,那不就可以使用全文索引了吗
基于这个目的,我们首先需要做的就是分词,如果要实现比较完美的分词的话,还是需要安装相应的插件,但我们很多是虚拟主机,根本没有条件来安装,所以只能采取比较原始的分词方法,二元分词法。
所谓二元分词法,就是将一句话从头到尾,两个字两个字地分开,比如:我们的祖国是花园。就可以划分为:我们,们的,的祖,祖国,国是,是花,花园。虽然有点浪费,但至少面面俱到了。
PHP的相应函数
//Monkey's 二元分词
function sp_str($str) {
//所有汉字后添加ASCII的0字符,此法是为了排除特殊中文拆分错误的问题
$str=preg_replace("/[/x80-/xff]{2}/","//0".chr(0x00),$str);
//拆分的分割符
$search = array(",", "/", "//", ".", ";", ":", "/"", "!", "~", "`", "^", "(", ")", "?", "-", "/t", "/n", "'", "<", ">", "/r", "/r/n", "$", "&", "%", "#", "@", "+", "=", "{", "}", "[", "]", ":", ")", "(", ".", "。", ",", "!", ";", "“", "”", "‘", "’", "[", "]", "、", "—", " ", "《", "》", "-", "…", "【", "】",); www.phperz.com
//替换所有的分割符为空格
$str = str_replace($search,' ',$str);
//用正则匹配半角单个字符或者全角单个字符,存入数组$ar
preg_match_all("/[/x80-/xff]?./",$str,$ar);$ar=$ar[0];
//去掉$ar中ASCII为0字符的项目
for ($i=0;$i<count($ar);$i++) if ($ar[$i]!=chr(0x00)) $ar_new[]=$ar[$i];
$ar=$ar_new;unset($ar_new);$oldsw=0;

//把连续的半角存成一个数组下标,或者全角的每2个字符存成一个数组的下标
for ($ar_str='',$i=0;$i<count($ar);$i++) {
$sw=strlen($ar[$i]);
if ($i>0 and $sw!=$oldsw) $ar_str.=" ";
if ($sw==1) $ar_str.=$ar[$i];
else
if (strlen($ar[$i+1])==2) $ar_str.=$ar[$i].$ar[$i+1].' ';
elseif ($oldsw==1 or $oldsw==0) $ar_str.=$ar[$i];
$oldsw=$sw;
}
//去掉连续的空格
$ar_str=trim(preg_replace("# {1,}#i"," ",$ar_str));//$ar_str = "Monkey s 二元 元分 分词"
phperz~com

//返回拆分后的结果
return explode(' ',$ar_str);
}
接下来,就该考虑如何把分好的词转换成单字节的,可以使用base64,sha1,md5。但有个问题就是转换后的字符有点长,那如何才能缩短字符呢,对了,就是使用区位码,因为区位码短啊,一个中文只占四个字节。
每个中文都有对应的区位码(除了标点符号和特殊符号),这样只要将上面分词的结果通过区位码转换后,然后存储到数据库里,就可以了。
PHP区位码函数
function quweima($str){
if(preg_match("/^[a-z0-9 ]+$/i",$str)){
return $str;
}else{
$str1 = substr($str,0,2);
//echo $str1;
$str_qwm = sprintf("%02d%02d",ord($str[0])-160,ord($str[1])-160);
$str2 = substr($str,2,4);
//echo $str2;
$str_qwm .= sprintf("%02d%02d",ord($str[0])-160,ord($str[1])-160);
return $str_qwm;
}
}
这里我加了判断,如果是英文或数字直接返回不做处理

phperz.com


经过这两步处理后,准备工作就基本完成了,下面就是建立数据库
我的数据库结构是这样的
id,title,title_ft(fulltext)
添加数据的时候,title存放标题,ft_title存放处理后的标题,内容应该是像这样的:43557401 54903471 …
$query = "SELECT title, MATCH( title_ft ) AGAINST( '$title_ft' IN BOOLEAN MODE ) AS score
FROM info
WHERE MATCH( title_ft ) AGAINST( '$title_ft' IN BOOLEAN MODE )
ORDER BY score DESC ";
其中 $title_ft是经过两个函数处理后的字符串,用它去匹配title_ft。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值