SOLR7实践(三)--分词配置及使用

分词配置及使用@SOLR7实践(三)

分词配置及使用

一、中文分词

中文分词网上有很多,按照客户要求,须有自定义词库,可以动态加载词库。
项目采用了IK分词器,但IK在2012年SOLR4后停止更新了,最后的版本是IK Analyzer 2012 FF,linliangyi的博客 http://linliangyi2007.iteye.com
liangyongxing介绍了IK支持SOLR6的方法,参见 http://www.cnblogs.com/liang1101/articles/6395016.html ,其项目发布在 https://github.com/liang68/ik-analyzer-solr6
Magese参考liangyongxing方法,增加了IK对SOLR7的支持,项目发布在
https://github.com/magese/ik-analyzer-solr7

1. 配置managed-schema

编辑/var/solr/data/new_core/conf/managed-schema
增加新数据类型的定义

  <fieldType name="text_ik" class="solr.TextField">
    <analyzer type="index">
      <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
  </fieldType>

IK下还可以配置同义词和拼音等,由于客户没有相关需求,只进行了相关调研,项目中没有实际使用。

2. 配置IKAnalyzer.cfg.xml

在/var/solr/data/new_core/conf/下创建 IKAnalyzer.cfg.xml
编辑内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<entry key="ext_dict">ext.dic;</entry> 
	<entry key="ext_stopwords">stopword.dic;</entry> 
</properties>

3. ik.conf

在/var/solr/data/new_core/conf/下创建 ik.conf 和 dynamic.dic
并编辑ik.conf内容如下:

files=dynamic.dic
lastupdate=0

4. 自定义词库和停止词词库

将IKAnalyzer.cfg.xml中配置的ext.dic和stopword.dic拷贝到/var/solr/data/new_core/conf/目录下。

ext.dic 和 stopword.dic 需保存为无BOM的UTF8文件,文件内每个词单独占一行。

5. 引用IK的jar包

将ik-analyzer-solr7-7.x.jar拷贝到/var/solr/data/new_core/lib目录。
jar包的下载地址 https://github.com/magese/ik-analyzer-solr7

6. 分词验证

new_core对应的Analysis页面中验证中文分词是否起作用
在这里插入图片描述

二、英数字的部分搜索

检索通讯录时,若需要对部分手机号码和部分邮件地址进行匹配,可以编辑/var/solr/data/new_core/conf/managed-schema ,增加新数据类型的定义

  <fieldType name="mobile_email" class="solr.TextField">
    <analyzer type="index">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.SnowballPorterFilterFactory" />
      <filter class="solr.NGramFilterFactory" minGramSize="2" maxGramSize="11" />
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.StandardTokenizerFactory"/>
    </analyzer>
  </fieldType>

参考文章
https://www.cnblogs.com/zhoujg/p/5054122.html
https://stackoverflow.com/questions/12101639/solr-partial-email-search-with-exact-match

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于PyTorch的Embedding和LSTM的自动写诗实验LSTM (Long Short-Term Memory) 是一种特殊的循环神经网络(RNN)架构,用于处理具有长期依赖关系的序列数据。传统的RNN在处理长序列时往往会遇到梯度消失或梯度爆炸的问题,导致无法有效地捕捉长期依赖。LSTM通过引入门控机制(Gating Mechanism)和记忆单元(Memory Cell)来克服这些问题。 以下是LSTM的基本结构和主要组件: 记忆单元(Memory Cell):记忆单元是LSTM的核心,用于存储长期信息。它像一个传送带一样,在整个链上运行,只有一些小的线性交互。信息很容易地在其上保持不变。 输入门(Input Gate):输入门决定了哪些新的信息会被加入到记忆单元中。它由当前时刻的输入和上一时刻的隐藏状态共同决定。 遗忘门(Forget Gate):遗忘门决定了哪些信息会从记忆单元中被丢弃或遗忘。它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 输出门(Output Gate):输出门决定了哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。同样地,它也由当前时刻的输入和上一时刻的隐藏状态共同决定。 LSTM的计算过程可以大致描述为: 通过遗忘门决定从记忆单元中丢弃哪些信息。 通过输入门决定哪些新的信息会被加入到记忆单元中。 更新记忆单元的状态。 通过输出门决定哪些信息会从记忆单元中输出到当前时刻的隐藏状态中。 由于LSTM能够有效地处理长期依赖关系,它在许多序列建模任务中都取得了很好的效果,如语音识别、文本生成、机器翻译、时序预测等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值