mac mysql ngram_MySQL ngram

最新推荐文章于 2023-12-18 16:07:42 发布

红色闪耀

最新推荐文章于 2023-12-18 16:07:42 发布

阅读量456

点赞数

文章标签： mac mysql ngram

本文链接：https://blog.csdn.net/weixin_33246707/article/details/113170118

版权

MySQL ngram

简介：本教程向您展示如何使用MySQL ngram全文解析器来支持中文，日文，韩文等表意语言的全文搜索。

MySQL ngram全文解析器简介

内置的MySQL全文解析器使用空格确定单词的开头和结尾。当涉及到诸如中文，日文或韩文等的表意语言时，这是一个限制，因为这些语言不使用单词分隔符。

为了解决这个问题，MySQL提供了ngram全文解析器。从版本5.7.6开始，MySQL包含ngram全文解析器作为内置服务器插件，这意味着MySQL在MySQL数据库服务器启动时自动加载此插件。MySQL支持InnoDB和MyISAM存储引擎的ngram全文解析器。

根据定义，ngram是来自文本序列的许多字符的连续序列。ngram全文解析器的主要功能是将一系列文本标记为一个由n个字符组成的连续序列。

下面说明了ngram全文解析器如何为不同的n值标记一系列文本：

n = 1: 'm','y','s','q','l'

n = 2: 'my', 'ys', 'sq','ql'

n = 3: 'mys', 'ysq', 'sql'

n = 4: 'mysq', 'ysql'

n = 5: 'mysql'

使用ngram解析器创建FULLTEXT索引

要创建一个FULLTEXT索引，使用NGRAM全文解析器，你加WITH PARSER ngram的CREATE TABLE，ALTER TABLE或CREATE INDEX声明。

例如，以下语句创建新posts表，并将title和body列添加到FULLTEXT使用ngram全文解析器的索引。

DROP TABLE IF EXISTS posts;

CREATE TABLE posts (

id INT PRIMARY KEY AUTO_INCREMENT,

title VARCHAR(255),

body TEXT,

FULLTEXT ( title , body ) WITH PARSER NGRAM

) ENGINE=INNODB CHARACTER SET UTF8MB4;

以下INSERT语句在posts表中插入一个新行：

SET NAMES utf8mb4;

INSERT INTO posts(title,body)

VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'),

('MySQL教程','学习MySQL快速，简单和有趣');

请注意，SET NAMES语句设置客户端和服务器将用于发送和接收数据的字符集; 在这种情况下，它是utf8mb4。

要查看ngram如何标记文本，请使用以下语句：

SET GLOBAL innodb_ft_aux_table="mysqldemo/posts";

SELECT

FROM

information_schema.innodb_ft_index_cache

ORDER BY doc_id , position;

+--------+--------------+-------------+-----------+--------+----------+

+--------+--------------+-------------+-----------+--------+----------+

| my | 2 | 3 | 2 | 2 | 0 |

| ys | 2 | 3 | 2 | 2 | 1 |

| sq | 2 | 3 | 2 | 2 | 2 |

| ql | 2 | 3 | 2 | 2 | 3 |

| l全 | 2 | 2 | 1 | 2 | 4 |

| 全文 | 2 | 2 | 1 | 2 | 5 |

| 文搜 | 2 | 2 | 1 | 2 | 8 |

| 搜索 | 2 | 2 | 1 | 2 | 11 |

| ql | 2 | 3 | 2 | 2 | 18 |

| ys | 2 | 3 | 2 | 2 | 18 |

| my | 2 | 3 | 2 | 2 | 18 |

| sq | 2 | 3 | 2 | 2 | 18 |

| l提 | 2 | 2 | 1 | 2 | 22 |

| 提供 | 2 | 2 | 1 | 2 | 23 |

| 供了 | 2 | 2 | 1 | 2 | 26 |

| 了具 | 2 | 2 | 1 | 2 | 29 |

| 具有 | 2 | 2 | 1 | 2 | 32 |

| 有许 | 2 | 2 | 1 | 2 | 35 |

| 许多 | 2 | 2 | 1 | 2 | 38 |

| 多好 | 2 | 2 | 1 | 2 | 41 |

| 好的 | 2 | 2 | 1 | 2 | 44 |

| 的功 | 2 | 2 | 1 | 2 | 47 |

| 功能 | 2 | 2 | 1 | 2 | 50 |

| 能的 | 2 | 2 | 1 | 2 | 53 |

| 的内 | 2 | 2 | 1 | 2 | 56 |

| 内置 | 2 | 2 | 1 | 2 | 59 |

| 文搜 | 2 | 2 | 1 | 2 | 60 |

| 全文 | 2 | 2 | 1 | 2 | 60 |

| 搜索 | 2 | 2 | 1 | 2 | 60 |

| 置全 | 2 | 2 | 1 | 2 | 62 |

| my | 2 | 3 | 2 | 3 | 0 |

| ys | 2 | 3 | 2 | 3 | 1 |

| sq | 2 | 3 | 2 | 3 | 2 |

| ql | 2 | 3 | 2 | 3 | 3 |

| l教 | 3 | 3 | 1 | 3 | 4 |

| 教程 | 3 | 3 | 1 | 3 | 5 |

| 学习 | 3 | 3 | 1 | 3 | 12 |

| 习m | 3 | 3 | 1 | 3 | 15 |

| my | 2 | 3 | 2 | 3 | 18 |

| sq | 2 | 3 | 2 | 3 | 18 |

| ql | 2 | 3 | 2 | 3 | 18 |

| ys | 2 | 3 | 2 | 3 | 18 |

| l快 | 3 | 3 | 1 | 3 | 22 |

| 快速 | 3 | 3 | 1 | 3 | 23 |

| 速， | 3 | 3 | 1 | 3 | 26 |

| ，简 | 3 | 3 | 1 | 3 | 29 |

| 简单 | 3 | 3 | 1 | 3 | 32 |

| 单和 | 3 | 3 | 1 | 3 | 35 |

| 和有 | 3 | 3 | 1 | 3 | 38 |

| 有趣 | 3 | 3 | 1 | 3 | 41 |

+--------+--------------+-------------+-----------+--------+----------+

50 rows in set (0.02 sec)

此查询对于故障排除非常有用。例如，如果单词未包含在搜索结果中，则单词可能未被索引，因为它是一个停用词，或者可能是另一个原因。

设置ngram令牌大小

如您所见，前面的示例中，ngram中的令牌大小(n)默认为2.要更改令牌大小，请使用ngram_token_size配置选项，其值介于1和10之间。

请注意，较小的令牌大小会使较小的全文搜索索引成为可能，因此您可以更快地进行搜索。

因为ngram_token_size是只读变量，所以您只能使用两个选项设置其值：

首先，在启动字符串中：

mysqld --ngram_token_size=1

二，在配置文件中：

[mysqld]

ngram_token_size=1

ngram解析器短语搜索

MySQL将短语搜索转换为ngram短语搜索。例如，"abc"转换为"ab bc"，返回包含"ab bc"和的文档"abc"。

下面的示例显示了搜索短语搜索中的posts表：

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('搜索' );

+----+-------------------+-------------------------------------------------------------+

| id | title | body |

+----+-------------------+-------------------------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

+----+-------------------+-------------------------------------------------------------+

1 row in set (7.74 sec)

用ngram处理搜索结果

自然语言模式

在NATURAL LANGUAGE MODE搜索中，搜索项将转换为ngram值的并集。假设令牌大小为2或bigram，搜索项mysql将转换为my ys sq和ql。

SELECT

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);

+----+-------------+-------------------------------------+

| id | title | body |

+----+-------------+-------------------------------------+

| 2 | MySQL教程 | 学习MySQL快速，简单和有趣 |

+----+-------------+-------------------------------------+

1 row in set (0.01 sec)

布尔模式

在BOOLEAN MODE搜索中，搜索项将转换为ngram短语搜索。例如：

SELECT

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);

+----+-------------+-------------------------------------+

| id | title | body |

+----+-------------+-------------------------------------+

| 2 | MySQL教程 | 学习MySQL快速，简单和有趣 |

+----+-------------+-------------------------------------+

1 row in set (0.16 sec)

ngram通配符搜索

ngram FULLTEXT索引只包含ngrams ，因此它不知道术语的开头。执行通配符搜索时，可能会返回意外结果。

以下规则适用于使用ngram FULLTEXT搜索索引的通配符搜索：

如果通配符中的前缀术语短于ngram令牌大小，则查询将返回包含以前缀术语开头的ngram令牌的所有文档。例如：

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('my*' );

+----+-------------------+-------------------------------------------------------------+

| id | title | body |

+----+-------------------+-------------------------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

| 2 | MySQL教程 | 学习MySQL快速，简单和有趣 |

+----+-------------------+-------------------------------------------------------------+

2 rows in set (4.40 sec)

如果通配符中的前缀术语长于ngram令牌大小，MySQL将把前缀术语转换为ngram短语并忽略通配符运算符。请参阅以下示例：

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('mysqld*' );

+----+-------------------+-------------------------------------------------------------+

| id | title | body |

+----+-------------------+-------------------------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

| 2 | MySQL教程 | 学习MySQL快速，简单和有趣 |

+----+-------------------+-------------------------------------------------------------+

2 rows in set (0.01 sec)

在这个例子中，术语“ mysqld"被转换成ngram短语："my" "ys" "sq" "ql" "ld"。因此，将返回包含这些短语之一的所有文档。

添加或修改 ngram 的索引

要向FULLTEXT现有表添加索引，可以使用ALTER TABLE或 CREATE INDEX。

ALTER TABLE posts ADD FULLTEXT INDEX ft_index (title,body) WITH PARSER ngram;

或者

CREATE FULLTEXT INDEX ft_index ON posts (title,body) WITH PARSER ngram;

处理停用词

ngram解析器排除包含禁用词列表中的停用词的令牌。例如，假设ngram_token_size为2且文档包含"abc"。ngram解析器将文档标记为"ab"和"bc"。如果"b"是一个停用词，ngram将排除两者"ab"，"bc"因为它们包含"b"。

请注意，如果语言不是英语，则必须定义自己的禁用词列表。此外，长度大于的停用词将ngram_token_size被忽略。

在本教程中，您学习了如何使用MySQL ngram全文解析器来处理表意语言的全文搜索。

红色闪耀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mac mysql ngram_MySQL ngram

MySQL ngram简介：本教程向您展示如何使用MySQL ngram全文解析器来支持中文，日文，韩文等表意语言的全文搜索。MySQL ngram全文解析器简介内置的MySQL全文解析器使用空格确定单词的开头和结尾。当涉及到诸如中文，日文或韩文等的表意语言时，这是一个限制，因为这些语言不使用单词分隔符。为了解决这个问题，MySQL提供了ngram全文解析器。从版本5.7.6开始，MySQL包含n...
复制链接

扫一扫