ngram mysql_mysql8 参考手册--ngram全文分析器

MySQL8提供了一个ngram全文分析器,用于支持中文、日语和朝鲜语的全文搜索,尤其解决了表意语言中无明显单词定界符的问题。ngram_token_size配置选项用于设置令牌大小,默认为2,影响搜索效率和索引大小。ngram解析器在处理空格和停用词时有其特殊方式,并且对通配符和短语搜索也有特定的行为模式。
摘要由CSDN通过智能技术生成

内置的MySQL全文语法分析器使用单词之间的空白作为定界符来确定单词的开始和结束位置,这在使用不使用单词定界符的表意语言时是一个限制。为了解决此限制,MySQL提供了一个支持中文,日语和朝鲜语(CJK)的ngram全文语法分析器。支持将ngram全文分析器与InnoDB和 一起使用MyISAM。

注意

MySQL还为日语提供了MeCab全文解析器插件,该插件将文档标记化为有意义的单词。有关更多信息,请参见第12.9.9节“ MeCab全文分析器插件”。

ngram是n来自给定文本序列的连续 字符序列。ngram解析器将文本序列标记为连续的n字符序列。例如,您可以使用ngram全文分析器将“ abcd ”标记为不同的值n。

n=1: 'a', 'b', 'c', 'd'

n=2: 'ab', 'bc', 'cd'

n=3: 'abc', 'bcd'

n=4: 'abcd'

ngram全文语法分析器是内置的服务器插件。与其他内置服务器插件一样,启动服务器时会自动加载该插件。

第12.9节“全文搜索功能”中 描述的全文搜索语法 适用于ngram解析器插件。本节介绍了解析行为的差异。全文相关的配置选项,除了最小和最大字长选项(innodb_ft_min_token_size, innodb_ft_max_token_size, ft_min_word_len, ft_max_word_len)也适用。

配置ngram令牌大小

ngram解析器的默认ngram令牌大小为2(bigram)。例如,令牌大小为2时,ngram解析器将字符串“ abc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值