005 IK-analyzer添加搜狗词库

最新推荐文章于 2022-03-29 00:14:07 发布

猴子敲代码

最新推荐文章于 2022-03-29 00:14:07 发布

阅读量326

点赞数

分类专栏： Lucene 文章标签： java xml lucene

本文链接：https://blog.csdn.net/test253506088/article/details/115612157

版权

Lucene 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1：从搜狗下载选择的细胞词库，这里下载动漫区的火影忍者词库
http://pinyin.sogou.com/dict/
2：用深蓝词库转换工具提取出txt文本，深蓝词库的下载地址
https://github.com/studyzy/imewlconverter/releases

转换后会获得这一的一个文件

3：用ultraedit将txt文本保存为无bom utf-8格式

从这里开始有歧义，先来看Lucene里怎么使用：

将文件名修改为后缀为.dic的英文名文件，丟到项目的配置文件夹中，在IKAnalyzer.cfg.xml文件里链接该文件就好，比如这里改名为NARUTO.dic

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
   <comment>IK Analyzer 扩展配置</comment>
   <!--用户可以在这里配置自己的扩展字典 -->
   <entry key="ext_dict">ext.dic;</entry> 
   <entry key="ext_dict">NARUTO.dic;</entry>
   <!--用户可以在这里配置自己的扩展停止词字典，就是配置那些词不要了-->
   <entry key="ext_stopwords">stopword.dic;</entry> 
  
</properties>

执行的时候虽然后台打印是这样的，但实际上ext和NARUTO都加在了

这边是在Solr里如何用

4：在solr的WEB-INF下创建classes目录

5：将utf-8格式的txt词库拷贝到solr的WEB-INF/classes目录

6：在WEB-INF/classes创建IKAnalyzer.cfg.xml，内容：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer ????</comment>
        <!--????????????????
        <entry key="ext_dict">/mydict.dic;</entry>
        -->
         <!--???????????????????-->
        <entry key="ext_dict">/mydict.dic;</entry>
        <entry key="ext_stopwords">/ext_stopword.dic</entry>

</properties>

猴子敲代码

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
005 IK-analyzer添加搜狗词库

1：从搜狗下载选择的细胞词库，这里下载动漫区的火影忍者词库http://pinyin.sogou.com/dict/2：用深蓝词库转换工具提取出txt文本，深蓝词库的下载地址https://github.com/studyzy/imewlconverter/releases转换后会获得这一的一个文件3：用ultraedit将txt文本保存为无bom utf-8格式从这里开始有歧义，先来看Lucene里怎么使用：将文件名修改为后缀为.dic的英文名文件，丟到项目的配置文件夹中.
复制链接

扫一扫