问题:mysql like %XXX%使得数据库引擎不能使用索引,而导致select查询缓慢。200M的表select like需要1s左右,这是实时性要求高的服务器承受不了的。
解决方法:首先google一通发现,都在说like很难优化,一般都是采用开源插件分词+全文索引。然后再搜索,又搜索到了clucene,研究了下clucene,发现用它的人都是重新实现的分词模块,这样如果不实现中文分词模块,clucene的作用也不大。如果搜索的字符串长度不大的话,比如是搜索文章标题,那么自己来实现分词模块也不是很难。下面的方法就是针对这类需求而实现的。
基本原理是:把mysql配置文件中的ft_min_word_len=3改为1。(没有这项就直接添加),然后新建一个字段来保持分词结果,给这个字段建立全文索引。然后实现一个分词模块,把词语“大家好”拆分为“大 大家 大家好 家 家好 好”。然后用match .. against 来代替like %%,查询出来的结果跟like的结果基本相同(如果分词合理的话),但是效率比like高至少10倍以上。