Lucene的Smart CN实现分词、停用词、扩展词
Lucene 中提供了 SmartCN 为中文提供分词功能,实际应用中还会涉及到停用词、扩展词(特殊词、专业词)等,因此本文将聚焦在 SmartCN 而暂时不考虑其他中文分词类库。1 简介analyzers-smartcn 是一个用于简体中文索引词的 Analyzer。但是需要注意的它提供的 API 是试验性的,后续版本中可能进行更改。可以它包含了如下两部分:org.apache.lucene.analysis.cn.smart 用于简体中文的分析器,用来建立索引。org.apache.luce.
原创
2020-05-24 15:22:08 ·
982 阅读 ·
0 评论