基于中文AC自动机--实现中文文本中特定参数的抽取

本文介绍了如何基于中文AC自动机算法实现从中文文本中自定义关键字的抽取。通过构建trie树和fail指针,将关键字存储并进行搜索遍历,实现了对文本的高效处理。同时,还涉及了提取日期信息并分类存储,以及对搜索过程的两种不同展示方式(广度优先和深度优先搜索)。
摘要由CSDN通过智能技术生成

近来需要做一些从中文文本中提取关键字(关键字自定义)的操作,偶然间了解了AC自动机算法,而网上的算法大多是基于英文实现的,所以也只是适用于英文提取关键字,因此最近研究了一下中文AC自动机的实现,记录下自己的思路,以期与大家共勉。


关于AC自动机,网上也已经是有了许多非常详细的介绍,比较关键的两步就是trie树和fail指针的构建,在这里也不再赘述,不清楚的可以去https://bestsort.cn/2019/04/28/402/。下面综合代码讲解一下我个人的实现方法,我使用java语言实现。

首先呢,是自定义一些关键字,为了方便统一操作,我们将关键字存入以UTF-8编码的txt文本中,每一行存一个关键字。不同类型的关键字存入不同的txt文本中,这里主要是适应于我个人的需要,用于区分关键字的类型,方便以后当做某种类型的参数去处理。

第一步,我构建一种新的数据结构,对该数据结构,每一个数据都有关键字和类型两个属性。

public class TypeKey {
    public String ikey;//关键字
    public String itype;//类型
}

第二步,我从不同的文本分别读出里面所有的关键字,并给同一文本里的关键字以相同的类型标记。

List<TypeKey> strings = new ArrayList<>();//储存关键字和类型的数组
        String type1 = "time";//每一种type都对应着一种类型,同时对应一个txt文本
        String type2 = "attr";
        String type3 = "machine";
        String type4 = "place";
        String type5 = "order";

        File timeKey = new File("D:\\dict\\time.txt");
        File attrKey = new File("D:\\dict\\attr.txt");
        File machineKey = new File("D:\\dict\\machine.txt");
        File placeKey = new File("D:\\dict\\place.txt");
        File orderKey = new File("D:\\dict\\order.txt");

        String str = null;
        BufferedReader brt = new BufferedReader(new InputStreamReader(new FileInputStream(timeKey), "UTF-8"));
        while((str = brt.readLine())!=null){
            String time = str;
            TypeKey tk = new TypeKey();
            tk.ikey = time;
            tk.itype = type1;
            strings.add(tk);
        }

        BufferedReader bra = new BufferedReader(new InputStreamReader(new FileInputStream(attrKey), "UTF-8"));
        while((str = bra.readLine())!=null){
            String attr = str;
            TypeKey tk = new TypeKey();
            tk.ikey = attr;
            tk.ity
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值