八十一、ElasticSearch详解（中）

最新推荐文章于 2024-09-02 22:55:38 发布

象在舞

最新推荐文章于 2024-09-02 22:55:38 发布

阅读量1k

点赞数 3

分类专栏：破茧成蝶——大数据篇文章标签： elasticsearch 大数据

本文链接：https://blog.csdn.net/gdkyxy2013/article/details/117698980

版权

破茧成蝶——大数据篇专栏收录该内容

83 篇文章 104 订阅

订阅专栏

上一篇文章我们着重从ElasticSearch的操作工具、存储方式以及检索等方面触发介绍了一下ElasticSearch的使用，本文我们从搜索原理入手继续看一下ElasticSearch是如何使用的。关注专栏《破茧成蝶——大数据篇》，查看更多相关的内容~

2.3 ElasticSearch自带的分词器

2.4 常见的中文分词器

2.5 Character Filters

一、正排索引和倒排索引

正排索引记录文档id到文档内容、单词的关联关系。正排索引表是以文档的ID为关键字，表中记录文档中每个字段的值信息，主要场景是通过查询id来把整条文档拿出来，一般MySQL关系型数据库是这种方式来查询的。这种组织方法在建立索引的时候结构比较简单，建立比较方便且易于维护，当对ID查询的时候检索效率会很高。

倒排索引表以字或词为关键字进行索引，表中关键字所对应的记录项记录了出现这个字或词的所有文档，每个字段记录该文档的ID和关键字在该文档中出现的位置情况。倒排索引记录单词到文档id的关联关系，包含：

1、单词词典（Term DicTionary）：记录所有文档的单词，一般比较大。

2、倒排索引（Posting List）：记录单词倒排列表的关联信息。

由于每个字或词对应的文档数量在动态变化，所以倒排表的建立和维护都较为复杂，但是一旦完成创建，在查询的时候由于可以一次得到查询关键字所对应的所有文档。

二、分词

分词是指将文本转换成一系列单词（term or token）的过程，也可以叫做文本分析，在es里面称为Analysis。

2.1 分词机制

分词机制如下所示：

Character Filter	对原始文本进行处理	例：去除html标签、特殊字符等
Tokenizer	将原始文本进行分词	例：象在舞是山东人-->象在舞，是，山东人
Token Filters	分词后的关键字进行加工	例：转小写、删除语气词、近义词和同义词等

2.2 分词API

2.2.1 直接指定分词器

POST _analyze
{
  "analyzer": "standard",
  "text":"我爱中国"
}

参数释义如下：

{
  "token": "我",			#分词
  "start_offset": 0,		#开始偏移
  "end_offset": 1,			#结束偏移
  "type": "<IDEOGRAPHIC>",	#单词类型
  "position": 0				#位置
}

2.2.2 针对索引的字段进行分词测试

2.2.3 自定义分词器

2.3 ElasticSearch自带的分词器

分词器	特点
Standard（es默认）	支持多语言，按词切分并做小写处理
Simple	按照非字母切分，小写处理
Whitespace	按照空格来切分
Stop	去除语气助词，如the、an、的、这等
Keyword	不分词
Pattern	正则分词，默认\w+，即非字词符号做分割符
Language	常见语言的分词器（30+）

2.4 常见的中文分词器

分词器名称	介绍	特点	地址
IK	实现中英文单词切分	自定义词库	https://github.com/medcl/elasticsearch-analysis-ik
Jieba	python流行分词系统，支持分词和词性标注	支持繁体、自定义、并行分词	http://github.com/sing1ee/elasticsearch-jieba-plugin
Hanlp	由一系列模型于算法组成的java工具包	普及自然语言处理在生产环境中的应用	https://github.com/hankcs/HanLP
THULAC	清华大学中文词法分析工具包	具有中文分词和词性标注功能	https://github.com/microbun/elasticsearch-thulac-plugin

2.5 Character Filters

在进行Tokenizer之前对原始文本进行处理，如增加、删除或替换字符等。这里需要注意的是：进行处理后，会影响后续tokenizer解析的position和offset。

HTML Strip	去除html标签和转换html实体
Mapping	字符串替换操作
Pattern Replace	正则匹配替换

2.6 Token Filter

对输出的单词（term）进行增加、删除、修改等操作。

Lowercase	将所有term转换为小写
stop	删除stop words
NGram	和Edge NGram连词分割
Synonym	添加近义词的term

2.7 自定义分词API

PUT xzw_analyzer
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my":{
          "tokenizer":"punctuation",
          "type":"custom",
          "char_filter":["emoticons"],
          "filter":["lowercase","english_stop"]
        }
      },
      "tokenizer": {
        "punctuation":{
          "type":"pattern",
          "pattern":"[.,!?]"
        }
      },
      "char_filter": {
        "emoticons":{
          "type":"mapping",
          "mappings":[
              ":)=>_happy_",
              ":(=>_sad_"
            ]
        }
      },
      "filter": {
        "english_stop":{
          "type":"stop",
          "stopwords":"_english_"
        }
      }
    }
  }
}

测试自己定义的分词API：

三、IK分词器

3.1 下载与安装

1、点击此处下载IK分词器的安装包，这里需要注意的是，应该下载与ES版本相对应的安装包。

2、将下载好的安装包上传到ES解压目录的plugins目录下并解压

3、修改所属的用户和用户组

[root@master plugins]# chown -R es:es analysis-ik

4、重新启动ES，发现加载了IK的配置文件，表示安装成功

3.2 IK分词器测试

IK提供了两个分词算法ik_smart和ik_max_word，其中ik_smart为最少切分，ik_max_word为最细粒度划分。

1、最少切分

2、最细切分

以上就是本文的所有内容，比较简单。你们在此过程中遇到了什么问题，欢迎留言，让我看看你们都遇到了哪些问题~

象在舞

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录