solr 拼音检索

最新推荐文章于 2017-10-30 15:24:04 发布

小草丶Bady

最新推荐文章于 2017-10-30 15:24:04 发布

阅读量2.3k

点赞数 1

文章标签： solr

本文链接：https://blog.csdn.net/lfdns/article/details/77772540

版权

solr 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

拼音检索中国人的专用检索,例如:中文内容为中国的输入zhongguo、zg、zhonggu 全拼、简拼、拼音的相邻的一部份都应该能检索出中国来。
想要实现拼音检索第一个就是拼音转换我这里用的是pinyin4j进行拼音转换。
但不同于常用的N-Gram，我应用的从一边开端的单向的N-Gram，Solr里的实现叫EdgeNGramTokenFilter，但是分的分的太细了，不需要这么复杂EdgeNGramTokenFilter,也就是说我们用的N-Gram不同于传统的N-Gram。
同样的例子使用EdgeNGramTokenFilter从前往后取2-Gram的结果是zh, 一般是取min–max之间的所有gram，所以使用EdgeNGramTokenFilter取2-20的gram结果就是zh,zho, zhon, zhong, zhongg, zhonggu, zhongguo, 从这个例子也不难理解为什么我要选择使用EdgeNGramTokenFilter而非一般意义上的N-Gram，考虑到用户可能输入的不是前缀而是后缀，所以为了照顾这些用户，我选择了从前往后和从后往前使用了两次EdgeNGramTokenFilter，这样不只是前缀、后缀，二十任意的字串都考虑进去了，所以大幅度的提高了搜索体验.
现在思路明确了我们把它结合到Solr中，为了方便使用现在写了两个Filter进行处理拼音分词问题一个是拼音转换Filter（PinyinTransformTokenFilter）一个是拼音N-Gram的Filter(PinyinNGramTokenFilter),这样一来使用时就不用在添加索引前做拦音的转换了。而且PinyinTransformTokenFilter还有个好处就是它只使用中文分词器分过的词，也就是说做转换的词都是有用的不重复的，不会对没用的停词类的做拼音转换和重复拼音转换，这样大大的提高了拼音转换速度。
想要Solr支持拼音检索就要先把拼音分词（PinyinAnalyzer）的jar复制到\solr\contrib\analysis-extras\lib下，然后在schema.xml中配置一个拼音字段类型：

ldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0">

  <analyzer type="index">

      <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseSentenceTokenizerFactory"/>

          <filter class="org.apache.lucene.analysis.cn.smart.SmartChineseWordTokenFilterFactory"/>

     <filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" />

<filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" />

      </analyzer>

  <analyzer type="query">

      <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseSentenceTokenizerFactory"/>

         <filter class="org.apache.lucene.analysis.cn.smart.SmartChineseWordTokenFilterFactory"/>

     <filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" />

         <filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" />

      </analyzer>

    </fieldType>

minTermLenght：最小中文词长度，意思是小于这个值的中文词不会做拼音转换。

minGram：最小拼音切分长度。
如果想使用简拼的话在拼音转换Filter 使用这个参数isFirstChar=”true”就可以了

   在这个拼音类型中我们使用了smartcn的中言语分词器，如果想使用其它的自己换掉就行了。现在我们在原来索引中加入一个拼音字段，因为只做索引,我们可以这样配置:

加完后我们重新启动Solr测试一下看看

   由于上面minTermLenght和minGram设置的值，现在出现了人没有进行拼音转换并且最小拼音切分是从1个开始的。

   到这里我们的配置还有没完成呢，还要加几个copyFiled，这样就不用单独处理我们新加的拼音字段了。方便呀~~~

到现在就可以使用拼音检索了。

拼音分词器jar 点击并复制就可以粘出去了.

小草丶Bady

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录