中文分词在大量数据模糊查询中的应用

最近在做建筑行业相关的项目,遇到的一个应用场景是解析材料名称。由于输入的数据中材料名称非常不规范,而且数量量又非常大,所以处理起来比较困难。

名称不规范的意思是,比如标准材料叫:“圆钢”,材料中出现的名称有:“钢筋圆钢”,“圆钢HPB300”,“钢筋 圆钢(≤Φ10)”等等,也就是说材料名称前面或者后面很多修饰语(一般情况是前面是材料分类,后面是型号信息)。

一般的思路就是关键字匹配,但是由于数据量比较大,一般上千条,而标准材料数量也上千条左右。所以用这种方法的话,就是两个for循环,循环次数非常多:

for _, v := range materialList {
	for _, v1 := range standardList { // 一共上千条
		if strings.Contain(v, v1) {
			// 找到了标准材料
			do something
			break
		}
	}
}

新的思路是使用中文分词,将标准材料放在字典里面,如下:

{

    // 键为标准材料名称,值为材料信息

    “圆钢”: xxxxxxx,

    "螺纹钢": xxxxxxx,

     ......

}

在解析材料数据的时候,先对材料进行分词,比如“钢筋圆钢”就会分为“钢筋”,“圆钢”,“圆钢HPB300”会分为"圆钢",“HPB300”等等。

分词之后,在词的数组中从后往前(针对我的应用场景)在字典中查找,直到键匹配成功。一般分词之后词的数量不会太多,基本都在5条以内,所以效率比较高。

这样将以前的内部循环匹配查找转换为分词操作和字典查找,只要分词操作性能高的话,整体查找效率会比第一种方法高很多。


其他类似场景也可以使用这种思路来提升程序的性能。

最后推荐一个我使用的go的中文分词库:sego https://github.com/huichen/sego

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值