我发现Levenshtein距离可能是好的,当你搜索一个完整的字符串对另一个完整的字符串,但是当你在字符串中查找关键字时,此方法不返回(有时)想要的结果。此外,SOUNDEX函数不适用于英语以外的语言,因此它非常有限。你可以逃离LIKE,但它真的是基本的搜索。您可能想查看其他搜索方法,以了解您想要实现的目标。例如:
您可以使用Lucene作为您的项目的搜索基地。它在大多数主要的编程语言中实现,它相当快速和多才多艺。这种方法可能是最好的,因为它不仅搜索子字符串,而且字母转置,前缀和后缀(所有组合)。但是,您需要保留一个单独的索引(使用CRON从一个独立脚本更新它一次在一段时间工作)。
或者,如果你想要一个MySQL解决方案,全文的功能是相当不错,并且肯定比存储过程更快。如果您的表不是MyISAM,您可以创建一个临时表,然后执行全文搜索:
CREATE TABLE IF NOT EXISTS `tests`.`data_table` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`title` varchar(2000) CHARACTER SET latin1 NOT NULL,
`description` text CHARACTER SET latin1 NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ;
如果你不想自己创建它,使用data generator生成一些随机数据…
**注意**:列类型应为latin1_bin以执行区分大小写搜索,而不是对latin1不区分大小写。对于unicode字符串,我建议utf8_bin为区分大小写,utf8_general_ci为不区分大小写的搜索。
DROP TABLE IF EXISTS `tests`.`data_table_temp`;
CREATE TEMPORARY TABLE `tests`.`data_table_temp`
SELECT * FROM `tests`.`data_table`;
ALTER TABLE `tests`.`data_table_temp` ENGINE = MYISAM;
ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` (
`title` ,
`description`
);
SELECT *,
MATCH (`title`,`description`)
AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score`
FROM `tests`.`data_table_temp`
WHERE MATCH (`title`,`description`)
AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE)
ORDER BY `score` DESC;
DROP TABLE `tests`.`data_table_temp`;
这样做的缺点是,它不会寻找字母转置或“类似,听起来像”的字。
** UPDATE **
使用Lucene进行搜索,你只需要创建一个cron作业(所有的web主机都有这个“功能”),这个作业将只是执行一个PHP脚本(ig“cd / path / to / script; php searchindexer.php” )将更新索引。原因是索引成千上万的“文档”(行,数据等)可能需要几秒钟,甚至几分钟,但这是为了确保所有搜索尽可能快地执行。因此,您可能需要创建一个由服务器运行的延迟作业。它可能是隔夜,或在接下来的一个小时,这取决于你。 PHP脚本应该看起来像这样:
$indexer = Zend_Search_Lucene::create('/path/to/lucene/data');
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
// change this option for your need
new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);
$rowSet = getDataRowSet(); // perform your SQL query to fetch whatever you need to index
foreach ($rowSet as $row) {
$doc = new Zend_Search_Lucene_Document();
$doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8'))
->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8'))
->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable))
->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8'))
;
$indexer->addDocument($doc);
}
// ... you can get as many $rowSet as you want and create as many documents
// as you wish... each document doesn't necessarily need the same fields...
// Lucene is pretty flexible on this
$indexer->optimize(); // do this every time you add more data to you indexer...
$indexer->commit(); // finalize the process
然后,这基本上是你如何搜索(基本搜索):
$index = Zend_Search_Lucene::open('/path/to/lucene/data');
// same search options
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);
Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');
$query = 'php +field1:foo'; // search for the word 'php' in any field,
// +search for 'foo' in field 'field1'
$hits = $index->find($query);
$numHits = count($hits);
foreach ($hits as $hit) {
$score = $hit->score; // the hit weight
$field1 = $hit->field1;
// etc.
}
这里是伟大的网站关于Lucene在Java,PHP和.Net。
总之,每种搜索方法都有自己的优点和缺点:
>你提到Sphinx search,它看起来非常好,只要你可以使deamon在你的主机上运行。
> Zend Lucene需要一个cron作业来重新索引数据库。虽然对用户来说很透明,这意味着任何新数据(或删除的数据!)并不总是与数据库中的数据同步,因此不会立即显示在用户搜索上。
> MySQL FULLTEXT搜索好,速度快,但不会给你所有的力量和灵活性的前两个。
如果我忘记了/错过了任何东西,请随意评论。