中文分词在大量数据模糊查询中的应用

最新推荐文章于 2024-04-15 20:21:53 发布

xtxy

最新推荐文章于 2024-04-15 20:21:53 发布

阅读量4.3k

点赞数

分类专栏：设计模式文章标签： golang 数据

本文链接：https://blog.csdn.net/xtxy/article/details/50856862

版权

设计模式专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近在做建筑行业相关的项目，遇到的一个应用场景是解析材料名称。由于输入的数据中材料名称非常不规范，而且数量量又非常大，所以处理起来比较困难。

名称不规范的意思是，比如标准材料叫：“圆钢”，材料中出现的名称有：“钢筋圆钢”，“圆钢HPB300”，“钢筋圆钢（≤Φ10）”等等，也就是说材料名称前面或者后面很多修饰语（一般情况是前面是材料分类，后面是型号信息）。

一般的思路就是关键字匹配，但是由于数据量比较大，一般上千条，而标准材料数量也上千条左右。所以用这种方法的话，就是两个for循环，循环次数非常多：

for _, v := range materialList {
	for _, v1 := range standardList { // 一共上千条
		if strings.Contain(v, v1) {
			// 找到了标准材料
			do something
			break
		}
	}
}

新的思路是使用中文分词，将标准材料放在字典里面，如下：

{

// 键为标准材料名称，值为材料信息

“圆钢”: xxxxxxx,

"螺纹钢": xxxxxxx,

......

}

在解析材料数据的时候，先对材料进行分词，比如“钢筋圆钢”就会分为“钢筋”，“圆钢”，“圆钢HPB300”会分为"圆钢"，“HPB300”等等。

分词之后，在词的数组中从后往前（针对我的应用场景）在字典中查找，直到键匹配成功。一般分词之后词的数量不会太多，基本都在5条以内，所以效率比较高。

这样将以前的内部循环匹配查找转换为分词操作和字典查找，只要分词操作性能高的话，整体查找效率会比第一种方法高很多。

其他类似场景也可以使用这种思路来提升程序的性能。

最后推荐一个我使用的go的中文分词库：sego https://github.com/huichen/sego

xtxy

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
中文分词在大量数据模糊查询中的应用

最近在做建筑行业相关的项目，遇到的一个应用场景是解析材料名称。由于输入的数据中材料名称非常不规范，而且数量量又非常大，所以处理起来比较困难。名称不规范的意思是，比如标准材料叫：“圆钢”，材料中出现的名称有：“钢筋圆钢”，“圆钢HPB300”，“钢筋圆钢（≤Φ10）”等等，也就是说材料名称前面或者后面很多修饰语（一般情况是前面是材料分类，后面是型号信息）。一般的思路就是关键字匹配，但是由于
复制链接

扫一扫