基础31 ElasticSearch 分词器的内部组成

11人阅读 评论(0) 收藏 举报
分类:

基础31 ElasticSearch 分词器的内部组成

概述

1、什么是分词器

切分词语,normalization(提升recall召回率)

  • 给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换),分瓷器
  • recall,召回率:搜索的时候,增加能够搜索到的结果的数量
character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html标签(<span>hello<span> --> hello),& --> and(I&you --> I and you)
tokenizer:分词,hello you and me --> hello, you, and, me
token filter:lowercase,stop word,synonymom,dogs --> dog,liked --> like,Tom --> tom,a/the/an --> 干掉,mother --> mom,small --> little

一个分词器,很重要,将一段文本进行各种处理,最后处理好的结果才会拿去建立倒排索引

2、内置分词器的介绍

Set the shape to semi-transparent by calling set_trans(5)

standard analyzer:set, the, shape, to, semi, transparent, by, calling, set_trans, 5(默认的是standard)

simple analyzer:set, the, shape, to, semi, transparent, by, calling, set, trans

whitespace analyzer:Set, the, shape, to, semi-transparent, by, calling, set_trans(5)

language analyzer(特定的语言的分词器,比如说,english,英语分词器):set, shape, semi, transpar, call, set_tran, 5
查看评论

分布式搜索引擎Elasticsearch开发实战基础篇

本教程旨在带领大家进入搜索引擎领域,从无到有,深入浅出的讲解了什么是搜索引擎,搜索引擎的作用以及ElasticSearch在实际工作中的作用等。
  • 2017年11月14日 11:48

Elasticsearch5.2配ik分词器

  • 2018年01月09日 13:52
  • 36.54MB
  • 下载

elasticsearch ik分词器安装

可以通过安装elasticsearch的ik分词器插件elasticsearch-analysis-ik来实现分词 1.下载 ​ 官方网站 https://git...
  • kao123yaojinqian
  • kao123yaojinqian
  • 2017-01-14 15:31:19
  • 1045

Elasticsearch 系列指南(三)——集成ik分词器

Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器)、english (英文分词)和chinese (中文分词)。其中standard 就是无脑的...
  • mjwwjcoder
  • mjwwjcoder
  • 2018-01-19 15:51:31
  • 171

Elasticsearch 中文分词器 IK 配置和使用

Elasticsearch 内置的分词器对中文不友好,会把中文分成单个字来进行全文检索,不能达到想要的结果 看一个例子curl -XGET 'http://localhost:9200/_analy...
  • jam00
  • jam00
  • 2016-10-31 15:54:20
  • 28099

ElasticSearch中分词器组件配置详解

首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由Apache Lucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展。  所以要想熟...
  • u010454030
  • u010454030
  • 2015-11-23 20:07:54
  • 1026

ElasticSearch速学 - 全文检索、分词器、过滤器

今天我们要来学习ElasticSearch的搜索方面的api,在开始之前,为了便于演示,我们先要创建一些索引数据。 Search APIs官方文档: https://www.elastic.co/...
  • github_26672553
  • github_26672553
  • 2017-04-19 15:45:50
  • 2517

ElasticSearch分词器

什么是分词器? 分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。到目前为止呢,分词器没有办法做到完全的符合人们的要求。和我们有关的分词器有英文的和中文的。英文的分词器过程:输入文本-关键词...
  • pilihaotian
  • pilihaotian
  • 2016-09-07 11:00:45
  • 2864

ElasticSearch 安装和使用IK分词器

1、到官网下载IK分词器并且编译成jar包。 2、把IK目录下的config\ik 的所有文件都复制到elasticsearch 的config\ik 的目录下面 3、在elasticsearch的 ...
  • hhl2046
  • hhl2046
  • 2016-11-23 09:41:28
  • 3672

Elasticsearch笔记六之中文分词器及自定义分词器

elasticsearch中配置中文分词器以及自定义分词器
  • ty4315
  • ty4315
  • 2016-09-08 21:45:56
  • 9629
    我的微信
      我的微信号号,添加后更多福利
    个人资料
    持之以恒
    等级:
    访问量: 6万+
    积分: 4688
    排名: 7868
    文章存档
    最新评论