[Lucene那点事儿]建立索引的一点想法

Lucene建立索引的时候,需要使用到分词器-Analyzer,分词器的作用就是将当前的文本按照分词规则进行分词,然后建立索引,检索结果的精确度很大程度上来自于索引的建立是否合理而准确。

lucene提供了一些内置的分词器: 

  1.  * SimpleAnalyzer  这个分词是一段一段话进行分
  2.  * StandardAnalyzer 标准分词拿来分中文和ChineseAnalyzer一样的效果  
  3.  * PerFieldAnalyzerWrapper  这个很有意思,可以封装很多分词方式,还可以于先设置field用那个分词分
  4.  * CJKAnalyzer  这个分词方式是正向退一分词(二分法分词),同一个字会和它的左边和右边组合成一个次,每个人出现两次,除了首字和末字  
  5.  * ChineseAnalyzer  这个是专业的中文分词器,一个一个字分  
  6.  * BrazilianAnalyzer 巴西语言分词  
  7.  * CzechAnalyzer 捷克语言分词  
  8.  * DutchAnalyzer 荷兰语言分词  
  9.  * FrenchAnalyzer 法国语言分词  
  10.  * GermanAnalyzer 德国语言分词  
  11.  * GreekAnalyzer 希腊语言分词  
  12.  * RussianAnalyzer 俄罗斯语言分词  
  13.  * ThaiAnalyzer 泰国语言分词  
  14.  * KeywordAnalyzer "Tokenizes" the entire stream as a single token. This is useful for data like zip codes, ids, and some product names.  
  15.  * PatternAnalyzer api讲这个分词方式很快,它是放在内存里面的  
  16.  * SnowballAnalyzer 经典分词用具 主要支持欧洲语言  
  17.  * StopAnalyzer 被忽略的词的分词器  
  18.  * WhitespaceAnalyzer 空格分词

这些分词器所提供的分词功能,其实并不能满足现实业务需求,比如上述的汉语分词器,其分词是通过一个字一个字的分词,那么:

“网易杭州研究院” 将分词成为 杭 、 州、 网、 易、 研、 究、 院

那么在进行检索的时候,通过这单字的检索,匹配结果暂且不论,单从使用上就有很大局限性,比如无法使用词语检索等,使用 “杭州” 检索&#

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值