elasticsearch初识

最新推荐文章于 2024-10-16 10:56:54 发布

choubi3813

最新推荐文章于 2024-10-16 10:56:54 发布

阅读量82

点赞数

文章标签：大数据数据库 json

原文链接：https://my.oschina.net/yangok/blog/1920646

版权

注：日常学习记录贴，下面描述的有误解的话请指出，大家一同学习。

elasticsearch作为一个全文搜索器，很多人喜欢拿去和solr对比，因为我之前在工作使用了elasticsearch，一直没有好好的整理，我这边的帖子只做elasticsearch的整理，有机会我会整理下solr的。

由于es涉及到的知识很多，比如涉及到怎么创建索引，或者类型，或者全文搜索，

我这里就不一一探讨了，很多基本知识大家可以自行的去翻翻开发手册。

下面我推荐了几个网站，方便大家学习：

1.https://elasticsearch.cn/explore/category-2 （es中文社区）

2.https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html （es 开发手册）

3.https://www.jianshu.com/p/ed7e1ebb2fb7 （es 索引相关博客）

一、es介绍

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎.

Elasticsearch 是一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎. 当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包括了全文搜索功能，还可以进行以下工作:

1.分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。

2.实时分析的分布式搜索引擎。

3.可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

二、Elasticsearch优缺点

优点
1、Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Push replication”。
2、Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
3、处理多租户（multitenancy）不需要特殊配置。
4、Elasticsearch 采用 Gateway 的概念，使得完备份更加简单。
5、各节点组成对等的网络结构，某些节点出现故障时会自动分配其他节点代替其进行工作。
缺点
1、还不够自动，不适合当前新的Index Warmup API (参考：http://zhaoyanblog.com/archives/764.html)

2、只支持json数据格式。

三、与数据库比较

es	关系型数据库
index(索引)	Db(数据库)
type(类型)	Table(表)
document(文档)	Row(行数据)

四、分词器

es内置有分词器，但是对中文支持不好，我在项目中使用的是IK分词器。

内置分词器

standard tokenizer	standard
edge ngram tokenizer	edgeNGram
keyword tokenizer	keyword	不分词
letter analyzer	letter	按单词分
lowercase analyzer	lowercase	letter tokenizer, lower case filter
ngram analyzers	nGram
whitespace analyzer	whitespace	以空格为分隔符拆分
pattern analyzer	pattern	定义分隔符的正则表达式
uax email url analyzer	uax_url_email	不拆分url和email
path hierarchy analyzer	path_hierarchy	处理类似`/path/to/somthing`样式的字符串