java使用ac算法实现关键词高亮

本文介绍如何在Java中利用AC自动机算法实现关键词高亮。针对输入文本和关键词,如“我想买苹果手机,请问哪里可以买苹果手机”和“苹果”,“苹果手机”,“哪里”,成功在10w条数据中耗时41ms完成高亮标记,解决单词重叠问题,确保关键词只被标记一次。实现过程包括构建AC自动机,标记关键词位置,然后根据标记插入替换符完成高亮。
摘要由CSDN通过智能技术生成

需求背景

标记出一句话中所有关键词
inpu:我想买苹果手机,请问哪里可以买苹果手机
keyword:“苹果”, “苹果手机”, “哪里”
result:我想买[[苹果手机]],请问[[哪里]]可以买[[苹果手机]]
10w条耗时:41ms

难点:需要考虑单词重叠问题(overlap),例如“苹果手机”同时包含两个关键词,只标记一次。

思路

通过ac自动机遍历得到所有关键词;

  • 新建一个byte[],长度等于原句子,根据ac算法结果将关键字位置设为1;
  • 将原句子转为char[],遍历char[]和byte[],如果byte[]前后位置不一致,则插入替换符;
    3.1 如果前一个为1,后一个为0,则插入“]]”;
    3.2 如果前一个为0,后一个为1,则插入“[[”;
  • 判断末尾是否插入替换符;

代码

pom文件引入hanlp,使用其中ac算法

<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.7.8</version>
</dependency>
package com.bincoder.StringUtils;

import com.hankcs.hanlp.collection.AhoCorasick.AhoC
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值