laravel(7.0)下tntsearch(2.0)和jieba-php使用

本文介绍了在 Laravel 7.0 项目中如何将 TNTSearch 的全文搜索引擎与 jieba-php 结合,以实现中文分词搜索。作者在过程中遇到 TntSearch 与 jieba-php 版本不匹配导致的错误,并通过创建自定义 TokenizerHandler 解决了这个问题。虽然 tntsearch:import 命令仍然存在错误,但在 Scout 管理的索引中可以正常工作。作者分享了实践过程中的学习心得,包括对 tokenizer 和 jieba 的理解以及选择 TNTSearch 而非 Elasticsearch 的原因。
摘要由CSDN通过智能技术生成

使用的"teamtnt/laravel-scout-tntsearch-driver": "^8.1"版本。

如需要,请先查看完此篇文章再修改代码。


按照参考文章TNTSearch - PHP 实现的全文索引引擎,已经完成了英文分词的搜索。中文就需要jieba-php,但苦于tntsearch的驱动已经跟进laravel7,但jieba并没有跟进,致使我参考TNTSearch 轻量级全文索引+中文分词一直报错,报vendor\fukuball\jieba-php\src\class\Jieba.php:265的index "HMM" 不存在。

查看信息栈发现,TNTIndexer.php调用jieba的tokenize(),传的参数对不上。

//vendor\teamtnt\tntsearch\src\Indexer\TNTIndexer.php:447
 
   public function breakIntoTokens($text)
    {
        if ($this->decodeHTMLEntities) {
            $text = html_entity_decode($text);
        }
        return $this->tokenizer->tokenize($text, $this->stopWords);
    }
//vendor\fukuball\jieba-php\src\class\Jieba.php:263

  public static function tokenize($sentence, $options = array("HMM" => true))
    {
        $seg_list = self::cut($sentence, false, array("HMM" => $options["HMM"]));
        $tokenize_list 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值