IK分词器第二步将句子分成对应的词

最新推荐文章于 2022-09-24 18:45:11 发布

帅的太无情

最新推荐文章于 2022-09-24 18:45:11 发布

阅读量269

点赞数

分类专栏：消息中间件保留字指令设计模式文章标签： elasticsearch java intellij-idea

本文链接：https://blog.csdn.net/qq_41891170/article/details/121688863

版权

消息中间件同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

保留字指令

2 篇文章 0 订阅

订阅专栏

设计模式

2 篇文章 0 订阅

订阅专栏

2⃣️ 将句子分成对应的词

该方法主要是对当前的指针字符进行匹配

			/**
			 * 从下半截代码看起，这里的matchInMain就是用于匹配主题表内的词的方法。这里的主词表已经加载至一个字典树之内，所以整个过程也就是一个从树根层层往下走的一个层层递归的方式，但这里只处理单字，不会去递归。
			 * 而匹配的结果一共三种UNMATCH（未匹配），MATCH（匹配）， PREFIX（前缀匹配），Match指完全匹配已经到达叶子节点，而PREFIX是指当前对上所经过的匹配路径存在，但未到达到叶子节点。
			 * 此外一个词也可以既是MATCH也可以是PREFIX，前缀匹配的都被存入了tempHit中去。而完整匹配的都存入context中保存。
			 * 继续看上半截代码，前缀匹配的词不应该就直接结束，因为有可能还能往后继续匹配更长的词，所以上半截代码所做的就是对这些词继续匹配。
			 * matchWithHit，就是在当前的hit的结果下继续做匹配。如果得到MATCH的结果，便可以在context中加入新的词元。
			 * 通过这样不段匹配，循环补充的方式，我们就可以得到所有的词，至少能够满足非smart模式下的需求。
			 */
			//*********************************
			//再对当前指针位置的字符进行单字匹配
			Hit singleCharHit = Dictionary.getSingleton().matchInMainDict(context.getSegmentBuff(), context.getCursor(), 1);
			if(singleCharHit.isMatch()){//首字成词
				//输出当前的词
				Lexeme newLexeme = new Lexeme(context.getBufferOffset() , context.getCursor() , 1 , Lexeme.TYPE_CNWORD);
				context.addLexeme(newLexeme);

				//同时也是词前缀
				if(singleCharHit.isPrefix()){
					//前缀匹配则放入hit列表
					this.tmpHits.add(singleCharHit);
				}
			}else if(singleCharHit.isPrefix()){//首字为词前缀
				//前缀匹配则放入hit列表
				this.tmpHits.add(singleCharHit);
			}

这部分代码就是对上诉代码匹配到非词的结尾再继续匹配

if(!this.tmpHits.isEmpty()){
				//处理词段队列
				Hit[] tmpArray = this.tmpHits.toArray(new Hit[this.tmpHits.size()]);
				for(Hit hit : tmpArray){
					hit = Dictionary.getSingleton().matchWithHit(context.getSegmentBuff(), context.getCursor() , hit);
					if(hit.isMatch()){
						//输出当前的词
						Lexeme newLexeme = new Lexeme(context.getBufferOffset() , hit.getBegin() , context.getCursor() - hit.getBegin() + 1 , Lexeme.TYPE_CNWORD);
						/**
						 * 此时加入的词都是两个以上的词了 单词在上一个部分已经完成了 若不成双词则会在下面移除
						 */
						context.addLexeme(newLexeme);
						
						if(!hit.isPrefix()){//不是词前缀，hit不需要继续匹配，移除
							this.tmpHits.remove(hit);
						}
						
					}else if(hit.isUnmatch()){
						//hit不是词，移除
						this.tmpHits.remove(hit);
					}					
				}
			}

该方法对“今天下班”来进行匹配流程图
在这里插入图片描述

帅的太无情

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
IK分词器第二步将句子分成对应的词

2⃣️ 将句子分成对应的词该方法主要是对当前的指针字符进行匹配 /** * 从下半截代码看起，这里的matchInMain就是用于匹配主题表内的词的方法。这里的主词表已经加载至一个字典树之内，所以整个过程也就是一个从树根层层往下走的一个层层递归的方式，但这里只处理单字，不会去递归。 * 而匹配的结果一共三种UNMATCH（未匹配），MATCH（匹配）， PREFIX（前缀匹配），Match指完全匹配已经到达叶子节点，而PREFIX是指当前对上所经过的匹配路径存在，但未到达到叶子节点。
复制链接

扫一扫