支持中文的MySQL 5.1+ 全文检索分词插件

55 篇文章 0 订阅

经过不停的尝试和努力,以最新的 mysql 5.1.11-beta 为基础,制作的分词插件已经测试成功,现在发布如下。

由于 mysql 5.1.x 本身的架构作了修改,所以增加分词直接以插件形式方式作就可以了,为了其中的 SEGMENT() 作为 UDF 来开发,但MySQL 本身的缺陷设计导致了自定义函数无法捕获参数的 charset info,于是为了“完美”起见,我还是对其中几个核心文件稍作了改动(不影响MYSQL的其它任何功能和架构)。

使用这个插件的效果是您可以在 MySQL 5.x 的 MyISAM 表中建立支持中文分词的全文索引,这个分词算法非常简单,基本上就是一个正向最大匹配法。

补丁下载地址:http://php.twomice.net/myft/ft-hightman-M5-0.1.tgz (17KB, 不含词典文件)

完整文件下载地址:http://php.twomice.net/myft/mysql-5.1.11-hi1.tgz (22MB, 不含词典文件)

------------------------------

作者:hightman, Mar (MingL_Mar@msn.com QQ: 16139558)

这是一个简单的分词插件, 包括一个 FTPARSER, 和 1个 SEGMENT() 函数.
----------------------------------------------------------------------
(注: 以下示例中的 x 表示某个具体的版本号):

1. 下载取得文件包:
   wget http://php.twomice.net/myft/ft-hightman-M5-0.1.tgz

2. 解压文件包
   tar xvzf ft-hightman-M5-0.x.tgz

   解压后您大概看到以下文件列表

ft-hightman-M5-0.x.patch
ft_hightman/

3. 将 ft_hightman/ 整个目录移入, mysql-5.1.x/plugin/ 目录

4. 将 ft-hightman-M5-0.x.patch 拷入 mysql-5.1.x/ 目录

5. 进入 mysql-5.1.x/ 目录, 运行下面命令针对旧文件打补丁
   patch -p1 < ft-hightman-M5-0.x.patch

6. 仍在源码目录中, 依次运行如下命令
   aclocal
   automake
   autoconf

7. 命令执行可能有点慢, 请耐心等待, 如有错误或警告请忽略它...

8. 按原先的方法编译、安装 mysql 5.x  

9. 在编译时请增加: --with-plugins=fthightman 来开启该插件

   ./configure --prefix=/home/soft/mysql5 --with-charset=gbk --with-extra-charsets=all --with-plugins=fthightman
   make
   make install

10. 编译完后准备启动程序, 请在 $Prefix/share/mysql 目录下建立要用的词典文件:

utf8 字符集对应的词典: wordlist-utf8.txt 和 stopwords-utf8.txt
gbk/gb2312 对应的词典: wordlist-gbk.txt 和 stopwords-gbk.txt
big5 字符集对应的词典: wordlist-big5.txt 和 stopwords-big5.txt

其它字符集请适当修改 plugin/ft_hightman/hightman_parser.c 中关于 wordlist[] 的定义
其中 wordlist-xxx.txt 的格式为每行一个词条信息, 由词和词频组成, 词与词频之间用\t或空格分开
而 stopwords-xxx.txt 是停用不作索引的词表, 则不需词频, 每行一个词.

提示: 如果您的数据库只用其中一种编码的话, 那么 utf8,gbk,big5只需要其中一种, 插件会根据当前
的校正字符集(字段级)来采用相应的词典....

特别提醒,如果您的mysql5安装在自定义目录, 请在启动 mysql 前或脚本里加上以下句话: ($prefix为安装目录,请勿照抄!!)
export LD_LIBRARY_PATH=$prefix/lib/mysql

11. 用命令行方式进入 MySQL 界面, 执行如下命令安装插件:

INSTALL PLUGIN fthightman SONAME 'myhightman.so';

12. 命行建立函数

CREATE FUNCTION segment RETURNS STRING SONAME 'myhightman.so';

13. 测试简单的 SEGMENT() 看看:

SET NAMES 'gbk';
SELECT SEGMENT('I am hightman,我是一个中国人') AS result;

SET NAMES 'utf8';
SELECT SEGMENT('I am hightman,鎴戞槸涓€涓 腑鍥戒汉') AS result;

14. 假设服务器字符集是 GBK, 这里我们测试 1个表, 以 UTF-8 字符集建表,
    同样可以试着改用 gbk 字符集建表看看效果

CREATE TABLE `test_utf8` (
`id` int(10) unsigned NOT NULL AUTO_INCREMENT,
`title` varchar(200) DEFAULT NULL,
`body` mediumtext,
PRIMARY KEY (`id`),
FULLTEXT KEY `ft_utf8` (`title`,`body`) WITH PARSER fthightman
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

INSERT INTO `test_utf8` VALUES (1, 'MySQL Tutorial', 'DBMS stands for DataBase ...');
INSERT INTO `test_utf8` VALUES (2, 'How To Use MySQL Efficiently', 'After you went through a ...');
INSERT INTO `test_utf8` VALUES (3, 'Optimising MySQL', 'In this tutorial we will show ...');
INSERT INTO `test_utf8` VALUES (4, '1001 MySQL Tricks', '1. Never run mysqld as root. 2. ...');
INSERT INTO `test_utf8` VALUES (5, 'MySQL vs. YourSQL', 'In the following database comparison ...');
INSERT INTO `test_utf8` VALUES (6, 'MySQL Security', 'When configured properly, MySQL ...');
INSERT INTO `test_utf8` VALUES (7, '中国测试', '这样可以吗');
INSERT INTO `test_utf8` VALUES (8, '疯狂测中国测试', '这样总应该可以吗');
INSERT INTO `test_utf8` VALUES (9, '中国语言测试', '这样又是行不行呢');
INSERT INTO `test_utf8` VALUES (10, '我爱china', 'china是我的祖国');

SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('中国');
SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('+中国 -疯狂' IN BOOLEAN MODE);
SELECT SEGMENT(title) FROM test_utf8;


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值