目录
Elasticsearch
介绍
Elasticsearch,基于lucene,隐藏复杂性,提供简单易用的restful api,接口、javapi.接口(还有其他语言的api接口)。
Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。
使用场景
维基百科,类似百度百科,牙膏,牙膏的维基百科,全文检索,高亮,搜索推荐。
The Guardian(国外新闻网站〉,类似搜狐新闻,用户行为日志(点击,浏览,收藏,评论)+社交网络数据(对某某新闻的相关看法〉,数据分析,给到每篇新闻文章的作者,
Stack Overflow(国外的程序异常讨论论坛),IT问题,程序的报错,提交上去,有人会跟你讨论和回答,全文检索,搜索相关问题和答案,程序报错了,就会将报错信息粘贴到里面去,搜索有没有对应的答案
Gi.tHub(开源代码管理),搜索上千亿行代码。
国内:站内搜索(电商,招聘,门户,等等〉,IT系统搜索(OA,CRM,ERP,等等),数据分析(ES热门的一个使用场景)。
特点
- 可以作为一个大型分布式集群(数百台服务器)技术,处理PB级数据,服务大公司;也可以运行在单机上,服务小公司
- Elasticsearch.不是什么新技术,主要是将全文检索、数据分析以及分布式技术,合并在了一起,才形成了独一无二的ES;lucene(全文检索〉,商用的数据分析软件(也是有的〉,分布式数据库(mycat)
- 对用户而言,是开箱即用的,非常简单,作为中小型的应用,直接3分钟部署一下ES,就可以作为生产环境的系统来使用了,数据量不大,操作不是太复杂
- 数据库的功能面对很多领域是不够用的(事务,还有各种联机事务型的操作〉﹔特殊的功能,比如全文检索,同义词处理,相关度排名,复杂数据分析,海量数据的近实时处理;Elasticsearch.作为传统数据库的一个补充,提供了数据库所不能提供的很多功能
倒排索引
数据库里面的数据,比如100万条,按照之前思路数据库存储,其实就是要扫描100万次,而且每次扫描都需要匹配那个文本所有的字符,确定是否包含搜索的关键词,而且还不能将搜索得词分开
利用倒排索引,进行搜索得话,假设100万条数据,才分词语 10000万条,那么倒排索引中,就有10000万条数据,可能我们只搜索前面几个就出来结果,10000万条。
核心概念
近实时
从写人数据到数据可以被搜索到有一个小延迟(大概1秒)﹔基于es搜索可以达到秒级
Cluster(机器)
集群包含多个节点,每个节点属于哪儿集群是通过配置(集群的名称默认是Elasticsearch)来决定的,一个集群就是一个节点或者两个
Node(结点)
集群中的一个节点,节点也有一个名称(默认是随机分配的〉,节点名称很重要〈在执行运维管理操作的时候),默认节点会去加入一个名称为“elasticsearch”的集群,如果直接启动一堆节点,那么它们会自动组成一个elasticsearch.集群,当然一个节点也可以组成一个elasticsearch集群。
Index(索引-数据库)
索引包含一堆有相似结构的文档数据,比如可以有一个可会索引,商品分类索引,订单索引,索引有一个名称。一个Index包含多个document,一个index就代表一类类似或者相同的document
product index(商品索引)—>商品信息
Type(类型表)
每个索引里面可以有一个或者多个type,type是index中的一个逻辑数据分类,一个type下的document,都有相同的field。
如:
Document(文档-行)
文档是es中的最小数据单元,一个document可以是一条客户数据,一条商品分类数据:
一条订单数据,通常用JSON数据结构表示,每个index下的type中,都可以去存储多个document
Filed(字段-列)
Field是Elasticsearch的最小单位。一个document里面有多个field,每个field就是一个数据字段。
mapping(映射-约束)
数据如何存放到索引对象上,需要有一个映射配置,包括:数据类型、是否存储、是否分词等。
es存储
es安装
下载地址
https://www.elastic.co/cn/downloads/past-releases/elasticsearch-5-6-2
linux下解压到/soft
tar -xzvf elasticsearch-5.6.2.tar.gz -C /soft
cd /soft/elasticesearch-5.6.2
mkdir data
mkdir logs
修改配置文件
config elasticseach.yml
cluster.name: my-application
node.name: node-1
path.data: /soft/elasticsearch-5.6.2/data
path.logs: /soft/elasticsearch-5.6.2/logs
network.host: 0.0.0.0
discovery.zen.ping.unicast.hosts: ["s201"]
不能root用户搭建
chown -R user /soft/elasticseach-5.6.2
需要改系统配置
nano /etc/security/limits.conf
加入:
* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096
执行:
nano /etc/sysctl.conf
加入:
vm.max_map_count=655360
执行:
sysctl -p