ElasticSearch - 基于 docker 部署 es、kibana，配置中文分词器、扩展词词典、停用词词典

最新推荐文章于 2024-05-31 10:35:25 发布

陈亦康

最新推荐文章于 2024-05-31 10:35:25 发布

阅读量1.8k

点赞数 1

分类专栏： ElasticSearch Docker 文章标签： elasticsearch docker 中文分词

本文链接：https://blog.csdn.net/CYK_byte/article/details/133219266

版权

Docker 同时被 2 个专栏收录

15 篇文章 2 订阅

订阅专栏

ElasticSearch

13 篇文章 1 订阅

订阅专栏

一、ElasticSearch 部署

1.1、创建网络

这里为了 es 和将来要下载的 kibana 进行互联，因此需要我们去创建一个网络.

Ps：这里也可以使用 docker-compose 一键互联，但是考虑到未来可能不会使用 kibana（可替代组件，前面的章节讲过），只需要 es，所以这里我们还是单独部署.

docker network create es-net

1.2、加载镜像

这里我们使用 es 的 7.12.1 版本的镜像，体积比较大，接近 1G，大家可以自己去 pull 下来，也可以去找一些现有的资源（因为太大了，我上传不了，bibana 也是如此）.

上传完成以后，去加载镜像即可.

docker load -i es.tar

1.3、运行

部署单点 es 命令如下.

docker run -d \
	--name es \
    -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
    -e "discovery.type=single-node" \
    -v es-data:/usr/share/elasticsearch/data \
    -v es-plugins:/usr/share/elasticsearch/plugins \
    --privileged \
    --network es-net \
    -p 9200:9200 \
    -p 9300:9300 \
elasticsearch:7.12.1

-e 表示配置环境变量，这里环境变量有两个.
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m"`：内存大小（es 底层是 Java 实现的，所以这里是配置 jvm 的堆内存大小），值得注意的是，这里 512 已经是能配置的最小内存了，不能更小，否则回出现内存不足的情况.
-e "discovery.type=single-node"`：非集群模式（single node 就是单个节点的意思）
-v es-data:/usr/share/elasticsearch/data`：挂载数据卷，绑定es的数据目录
-v es-plugins:/usr/share/elasticsearch/plugins`：挂载数据卷，绑定es的插件目录（将来作拓展，就要在这里存东西）
--privileged`：授予数据卷访问权
--network es-net` ：加入一个名为es-net的网络中
-p 9200:9200：这里是 http 协议端口，供我们访问.
-p 9300:9300：这里是 es 容器各个节点之间的互联端口.（这个端口现在用不到，不暴露也没关系，只是后面部署集群的时候，还得打开）.

如果要设置集群，可以如下配置：

-e "cluster.name=es-docker-cluster"`：设置集群名称

运行镜像

1.4、检查是否部署成功

可以先通过 docker ps 命令，看一下是不是启动成功了.

接下来，打开浏览器，输入 http://你的云服务ip:9200 即可（这里我就不暴露 ip了，孩子吃了不少教训，害怕黑客攻击了...）

Ps：这里别忘了开 9200 端口的防火墙.

如果看到如下界面，就说明 ElasticSearch 部署完成~

二、部署 Kibana

这里为什么还要安装 kibana 呢？因为 kibana 中提供了一个 dev tools 工具，可以让我们非常方便的编写 es 中 DSL 语句.

2.1、加载镜像

这里的镜像同样不建议大家去 pull，可以去网上找找其他的资源，但是值得注意的是，kibana 的版本要和 es 匹配才行.

docker load -i kibana.tar

2.2、运行

运行以下命令，运行镜像

docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=es-net \
-p 5601:5601  \
kibana:7.12.1

--network es-net` ：加入一个名为es-net的网络中，与elasticsearch在同一个网络中.
-e ELASTICSEARCH_HOSTS=http://es:9200"`：设置elasticsearch的地址，因为kibana已经与elasticsearch在一个网络，因此可以用容器名直接访问elasticsearch.
-p 5601:5601`：端口映射配置.

Kibana 启动一般比较慢，需要多等待一会，可以通过 docker logs -f kibana 命令来查看他的运行日志信息.

最后，在浏览器中输入地址：http://你的云服务器 ip:5601 既可看到结果.

这里专门提供了一个工具，用来编写 DSL 代码，来操作 es，并且还有 DSl 语句自动补全功能.

三、部署 IK 分词器

前面章节我们讲到，建立倒排索引需要对用户输入的内容进行分词处理（比如用户输入“华为手机”，会分成 “华为”和“手机”），但是由于 es 默认的分词器是不支持中文分词的，因此这里需要我们去安装 IK 分词器.

3.1、查看数据卷目录

安装插件需要知道 es 的 plugins 的目录位置，而我们使用了数据卷挂载，因此只需要查看 es 的数据卷目录，通过以下命令即可查看 :

docker volume inspect es-plugins

3.2、上传分词器

这里我们可以在网上找 ik 分词器的压缩包，下载下来解压，命名为 ik.

然后上传到 es 容器的插件数据卷中.

如果直接上传文件夹失败，那么还是压缩成 zip 文件，上传，然后通过 unzip 进行解压.

3.3、重启容器

使用以下命令重启容器

docker restart es

3.4、测试

IK 分词器，包含两种模式：

ik_smart：最少切分，例如 “世界上” 这个内容，首先就是看这个整体是否是一个词，如果是就将他作为一个词条，然后这个词就拆分完成了；如果不是一个词，才继续拆分.
ik_max_word：最细切分，例如 “世界上” 这个内容，首先就看这个整体是否是一个词，如果是就将他作为一个词条，然后在看是否能继续切分，如果可以就继续切分，找到新词条.

以下我们可以看一下使用 ik_smart 对 "java是世界上最好的语言进行分词".

ik_max_word 分词输入：

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "java是世界上最好的语言"
}

输出如下：

{
  "tokens" : [
    {
      "token" : "java",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "ENGLISH",
      "position" : 0
    },
    {
      "token" : "是",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 1
    },
    {
      "token" : "世界上",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "世界",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "上",
      "start_offset" : 7,
      "end_offset" : 8,
      "type" : "CN_CHAR",
      "position" : 4
    },
    {
      "token" : "最好",
      "start_offset" : 8,
      "end_offset" : 10,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "的",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "CN_CHAR",
      "position" : 6
    },
    {
      "token" : "语言",
      "start_offset" : 11,
      "end_offset" : 13,
      "type" : "CN_WORD",
      "position" : 7
    }
  ]
}

ik_smart 分词输入：

GET /_analyze
{
  "analyzer": "ik_smart",
  "text": "java是世界上最好的语言"
}

输出：

{
  "tokens" : [
    {
      "token" : "java",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "ENGLISH",
      "position" : 0
    },
    {
      "token" : "是",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 1
    },
    {
      "token" : "世界上",
      "start_offset" : 5,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "最好",
      "start_offset" : 8,
      "end_offset" : 10,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "的",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "CN_CHAR",
      "position" : 4
    },
    {
      "token" : "语言",
      "start_offset" : 11,
      "end_offset" : 13,
      "type" : "CN_WORD",
      "position" : 5
    }
  ]
}

3.4、扩展词词典

随着互联网的不断发展，也出现了很多新的词语，在原有的词汇列表中不存在，比如：“鸡你太美”，“奥里给”.......

所以我们的词汇也需要不断更新，IK分词器也提供了扩展词汇的功能.

a）在 es 的插件数据卷目录下，进入 ik 文件夹，接着进入 config 目录.

找到如下文件

b）通过 vim 打开 IKAnalyzer.vfg.xml 配置文件，添加以下内容：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->

        <!-- 例如如下添加 ext.dic 文件 -->
        <entry key="ext_dict">ext.dic</entry>
</properties>

c）新建一个 ext.dic，添加需要的词汇.

Ps：当前文件的编码必须是 UTF-8 格式，严禁使用Windows记事本编辑

d）重启 es

docker restart es

e）测试效果

ik_max_word 分词输入：

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "听过鸡你太美和奥里给吗？"
}

输出：

{
  "tokens" : [
    {
      "token" : "听过",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "鸡你太美",
      "start_offset" : 2,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "太美",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "和",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 3
    },
    {
      "token" : "奥里给",
      "start_offset" : 7,
      "end_offset" : 10,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "吗",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "CN_CHAR",
      "position" : 5
    }
  ]
}

3.5、停用词词典

在互联网项目中，在网络间传输的速度很快，所以很多语言是不允许在网络上传递的，如：关于宗教、政治等敏感词语，那么我们在搜索时也应该忽略当前词汇。

IK分词器也提供了强大的停用词功能，让我们在索引时就直接忽略当前的停用词汇表中的内容。

a）IKAnalyzer.cfg.xml配置文件内容添加

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
        <entry key="ext_stopwords">stopword.dic</entry>
</properties>

b）在 stopword.dic 中添加停用词.

可以看到这里，原本已经有一些停用的词（一些介词...没必要创建索引）

这里我们添加 “小黑子”，如下

c）重启 es

docker restart es

d）测试

可以看出，并没有分出小黑子这个词条

陈亦康

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
ElasticSearch - 基于 docker 部署 es、kibana，配置中文分词器、扩展词词典、停用词词典

这里为了 es 和将来要下载的 kibana 进行互联，因此需要我们去创建一个网络.Ps：这里也可以使用 docker-compose 一键互联，但是考虑到未来可能不会使用 kibana（可替代组件，前面的章节讲过），只需要 es，所以这里我们还是单独部署.
复制链接

扫一扫