jcseg分词自动识别填充数据属性

  前段时间,我在公司接到一项任务,大概功能需求模型如下:比如给一系列字符串,其中包含地区的行政代码、机器ID、机器类型ID、操作人员编号ID等大部分都是一连串的数字。这些信息使用“-”或者“/”分割开,但是这些信息出现的前后顺序是不一定的。

  刚领到任务,我连jcesg是什么都没听说过。后来大概看了看有点明白了,尤其是看了jcseg的官方文档N多遍之后。下面我谈谈我的实现思路:

  Step1:把各个属性正确切割出来。jcseg里面定义了一个wordstop的词典,可以在里面定义分词的标识符。在项目启动后自动加载wordstop词典,然后我们就可以正确切割字符串。这里需要注意的一点是:分词后要避免jcseg自动二次分词,在properties文件中有个属性可以关闭二次分词。

  Step2:遍历分词后的结果,并且依次加载自定义的词典进行匹配。

 原理介绍完了,下面举个例子来说明一下过程:

 比如有一串字符串信息:110000-machineA-OperatorB。

 第一步:通过分词取得三个词:110000、machineA、OperatorB。

 第二步:遍历上述分词结果,匹配词典:

 110000对应行政代码词典里面的北京市行政区代码。所有上述字符串附加属性有:行政区:北京市。

 machineA对应机器词典里面的机器A代码。所有上述字符串附加属性有:机器:机器A。

 OperatorB对应操作员词典里面的张三代码。所有上述字符串附加属性有:操作人:张三。

 以上就是整个使用jcseg解析字符串数据信息的过程。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值