elasticsearch

一.大规模数据如何检索?

             当数据不是很多时,关系型数据库比如mysql,sql server等能够应对查询,写入数据,可是当数据达到10亿、100亿条的时候该如何做呢?

     (1)传统数据库的应对解决方案

对于关系型数据,我们通常采用以下或类似架构去解决查询瓶颈和写入瓶颈: 
解决要点: 
1)通过主从备份解决数据安全性问题; 
2)通过数据库代理中间件心跳监测,解决单点故障问题; 
3)通过代理中间件将查询语句分发到各个slave节点进行查询,并汇总结果 


   

(2)非关系型数据库的解决方案

对于Nosql数据库,以mongodb为例,其它原理类似: 
解决要点: 
1)通过副本备份保证数据安全性; 
2)通过节点竞选机制解决单点问题; 
3)先从配置库检索分片信息,然后将请求分发到各个节点,最后由路由节点合并汇总结果 

二.Elasticsearch介绍

1.ES定义

ES=elaticsearch简写, Elasticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。 
Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。


2. ES特点和优势


1)分布式实时文件存储,可将每一个字段存入索引,使其可以被检索到。 
2)实时分析的分布式搜索引擎。 
分布式:索引分拆成多个分片,每个分片可有零个或多个副本。集群中的每个数据节点都可承载一个或多个分片,并且协调和处理各种操作; 
负载再平衡和路由在大多数情况下自动完成。 
3)可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。也可以运行在单台PC上(已测试) 
4)支持插件机制,分词插件、同步插件、Hadoop插件、可视化插件等。


3. ES国内外使用优秀案例


1) 2013年初,GitHub抛弃了Solr,采取ElasticSearch 来做PB级的搜索。 “GitHub使用ElasticSearch搜索20TB的数据,包括13亿文件和1300亿行代码”。


2)维基百科:启动以elasticsearch为基础的核心搜索架构。 
3)SoundCloud:“SoundCloud使用ElasticSearch为1.8亿用户提供即时而精准的音乐搜索服务”。 
4)百度:百度目前广泛使用ElasticSearch作为文本数据分析,采集百度所有服务器上的各类指标数据及用户自定义数据,通过对各种数据进行多维分析展示,辅助定位分析实例异常或业务层面异常。目前覆盖百度内部20多个业务线(包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等),单集群最大100台机器,200个ES节点,每天导入30TB+数据。



4.Lucene与ES关系?


1)Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。


2)Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。


5. ES主要解决问题:


1)检索相关数据; 
2)返回统计结果; 
3)速度要快。



6. ES核心概念
1)Cluster:集群。


ES可以作为一个独立的单个搜索服务器。不过,为了处理大型数据集,实现容错和高可用性,ES可以运行在许多互相合作的服务器上。这些服务器的集合称为集群。

2)Node:节点。


形成集群的每个服务器称为节点。

3)Shard:分片。


当有大量的文档时,由于内存的限制、磁盘处理能力不足、无法足够快的响应客户端的请求等,一个节点可能不够。这种情况下,数据可以分为较小的分片。每个分片放到不同的服务器上。 
当你查询的索引分布在多个分片上时,ES会把查询发送给每个相关的分片,并将结果组合在一起,而应用程序并不知道分片的存在。即:这个过程对用户来说是透明的。

4)Replia:副本。


为提高查询吞吐量或实现高可用性,可以使用分片副本。 
副本是一个分片的精确复制,每个分片可以有零个或多个副本。ES中可以有许多相同的分片,其中之一被选择更改索引操作,这种特殊的分片称为主分片。 
当主分片丢失时,如:该分片所在的数据不可用时,集群将副本提升为新的主分片。

5)全文检索。


全文检索就是对一篇文章进行索引,可以根据关键字搜索,类似于mysql里的like语句。 
全文索引就是把内容根据词的意义进行分词,然后分别创建索引,例如”你们的激情是因为什么事情来的” 可能会被分词成:“你们“,”激情“,“什么事情“,”来“ 等token,这样当你搜索“你们” 或者 “激情” 都会把这句搜出来。



7. ES数据架构的主要概念(与关系数据库Mysql对比)


这里写图片描述 
(1)关系型数据库中的数据库(DataBase),等价于ES中的索引(Index) 
(2)一个数据库下面有N张表(Table),等价于1个索引Index下面有N多类型(Type), 
(3)一个数据库表(Table)下的数据由多行(ROW)多列(column,属性)组成,等价于1个Type由多个文档(Document)和多Field组成。 
(4)在一个关系型数据库里面,schema定义了表、每个表的字段,还有表和字段之间的关系。 与之对应的,在ES中:Mapping定义索引下的Type的字段处理规则,即索引如何建立、索引类型、是否保存原始索引JSON文档、是否压缩原始JSON文档、是否需要分词处理、如何进行分词处理等。 
(5)在数据库中的增insert、删delete、改update、查search操作等价于ES中的增PUT/POST、删Delete、改_update、查GET.


8. 我们也需要

实际项目开发实战中,几乎每个系统都会有一个搜索的功能,当搜索做到一定程度时,维护和扩展起来难度就会慢慢变大,所以很多公司都会把搜索单独独立出一个模块,用ElasticSearch等来实现。

近年ElasticSearch发展迅猛,已经超越了其最初的纯搜索引擎的角色,现在已经增加了数据聚合分析(aggregation)和可视化的特性,如果你有数百万的文档需要通过关键词进行定位时,ElasticSearch肯定是最佳选择。当然,如果你的文档是JSON的,你也可以把ElasticSearch当作一种“NoSQL数据库”, 应用ElasticSearch数据聚合分析(aggregation)的特性,针对数据进行多维度的分析。

三.Elasticsearch的使用场景深入详解

     1.使用Elasticsearch作为唯一的数据存储,以帮助保持你的设计尽可能简单。 

此种场景不支持包含频繁更新、事务(transaction)的操作。

     2.在现有系统中增加elasticsearch

由于ES不能提供存储的所有功能,一些场景下需要在现有系统数据存储的基础上新增ES支持。 

举例1:ES不支持事务、复杂的关系(至少1.X版本不支持,2.X有改善,但支持的仍然不好),如果你的系统中需要上述特征的支持,需要考虑在原有架构、原有存储的基础上的新增ES的支持。

举例2:如果你已经有一个在运行的复杂的系统,你的需求之一是在现有系统中添加检索服务。一种非常冒险的方式是重构系统以支持ES。而相对安全的方式是:将ES作为新的组件添加到现有系统中。 
如果你使用了如下图所示的SQL数据库和ES存储,你需要找到一种方式使得两存储之间实时同步。需要根据数据的组成、数据库选择对应的同步插件。可供选择的插件包括: 
1)mysql、oracle选择 logstash-input-jdbc 插件。 
2)mongo选择 mongo-connector工具。

假设你的在线零售商店的产品信息存储在SQL数据库中。 为了快速且相关的搜索,你安装Elasticsearch。 
为了索引数据,您需要部署一个同步机制,该同步机制可以是Elasticsearch插件或你建立一个自定义的服务。此同步机制可以将对应于每个产品的所有数据和索引都存储在Elasticsearch,每个产品作为一个document存储(这里的document相当于关系型数据库中的一行/row数据)。

当在该网页上的搜索条件中输入“用户的类型”,店面网络应用程序通过Elasticsearch查询该信息。 Elasticsearch返回符合标准的产品documents,并根据你喜欢的方式来分类文档。 排序可以根据每个产品的被搜索次数所得到的相关分数,或任何存储在产品document信息,例如:最新最近加入的产品、平均得分,或者是那些插入或更新信息。 所以你可以只使用Elasticsearch处理搜索。这取决于同步机制来保持Elasticsearch获取最新变化。


ps:

使用 logstash-input-jdbc 同步数据带来的问题:

1.elasticsearch数据重复以及增量同步

2.数据同步频繁,影响mysql数据库性能

3.elasticsearch存储容量不断上升

4.增量同步和mysql范围查询导致mysql数据库有修改时无法同步到以前的数据

 



四:相关组件说明

1.elk:日志分析系统


ELK=elasticsearch+Logstash+kibana 
elasticsearch:后台分布式存储以及全文检索 
logstash: 日志加工、“搬运工” 
kibana:数据可视化展示。 
ELK架构为数据分布式存储、可视化查询和日志解析创建了一个功能强大的管理链。 三者相互配合,取长补短,共同完成分布式大数据处理工作。


2.spring boot集成elasticsearch6.1.1



3.插件应用及说明:

elasticsearch-head:用于网页查询elasticsearch数据

logstash-input-jdbc,用于mysql和elasticsearch同步

分词器插件



五:正式搭建及应用

1.搭建elasticsearch6.1.1


tar -zxvf  elasticsearch6.1.1.tar.gz


mv elasticsearch /usr/local/elasticsearch


./bin/elasticsearch

此处一般会报错,因为不建议或者不允许以root用户启动elasticsearch

建立子用户

groupadd esgroup

useradd esuser -g esgroup -p 123456

更改elasticsearch文件夹及内部文件的所属用户及组:
cd /usr/local/elasticsearch chown -R esuser:esgroup elasticsearch-6.1.1
切换用户并运行:
su esuser ./bin/elasticsearch

后台运行:
./bin/elasticsearch -d

外网访问:

vim config/elasticsearch.yml

network.host: 0.0.0.0

可能汇报java内存不够用的错

vim conf/jvm.options

增大2倍即可,一直到可用

elasticsearch6.0版本安装head插件

  • 下载到/shenfeng/elastcisearch
  • unzip xxx.zip
  • 安装nodejs

        yum install nodejs

  • 安装grunt

         npm install -g grunt  -cli

         cd /shenfeng/elastcisearch/head

  • npm install 

出现一下字样则成功

  • grunt server运行

          可能报错,报错则添加

         vim elasticsearch安装目录/config/elasticsearch.yml
          http.cors.enabled: true                 

          http.cors.allow-origin: "*"

  • 重新启动




2.搭建logstash6.1.1


tar  -zxvf  logstash6.1.1.tar.gz
mv logstash6.1.1  /usr/local/logstash

1.一般会./bin/logstash -f xxx.conf启动

其中xxx.conf是连接到elasticsearch的一些配置,自行上网搜

2.显示已安装的插件

./bin/logstash-plugin list 显示所有已安装好的plugin

3.安装plugin   

./bin/logstash-plugin install logstash-input-log4j

如果安装较慢或者无反应

按照如下更改国内镜像库:

-------更改方法---------

如果没有gem命令的话,需要先安装一下子(root用户才可以)

yum install gem
  • 1

替换ruby镜像库为国内的库,因为国外的库,国内是访问不到的,然后国内有两个库,两个库都是可以用的: 
1、替换成ruby-china的库

gem sources --add https://gems.ruby-china.org/ --remove https://rubygems.org/
  • 1

查看是否成功

gem sources -l
  • 1

这里写图片描述

2、国内还有一个库,是淘宝的:

gem sources --add https://ruby.taobao.org/ --remove https://rubygems.org/
  • 1

可以同样用gem sources -l查看是否替换成功。

替换完之后,进入logstash-5.5.0,修改Gemfile文件里面的数据源:

vi Gemfile
  • 1

修改成这个样子:

source "https://gems.ruby-china.org"
  • 1

如果用的用的是淘宝的库,就修改成这样

source "https://ruby.taobao.org"
  • 1

好了,这样ruby的安装环境就算是配好了。

进入到logstash的bin下

cd bin
./bin/logstash-plugin install logstash-input-log4j


---------完成-----------



logstash-input-log4j插件介绍:

通过配置可将mysql数据同步到elasticsearch,以下介绍如何进行同步

进入到logstash的bin目录下,

mkdir config-mysql

cd config-mysql

vim mysql2.conf


mysql2.conf
input {
     stdin {
     }
     jdbc {
       # 数据库
       jdbc_connection_string =>  "jdbc:mysql://localhost:3306/elasticsearchSynchronize"
       # 用户名密码
       jdbc_user =>  "root"
       jdbc_password =>  "123456"
       # jar包的位置
       jdbc_driver_library =>  "/usr/local/logstash/logstash-6.1.1/bin/config-mysql/mysql-connector-java-5.1.45-bin.jar"
       # mysql的Driver
       jdbc_driver_class =>  "com.mysql.jdbc.Driver"
       jdbc_paging_enabled =>  "true"
       jdbc_page_size =>  "50000"
       #需要执行的脚本
       statement_filepath =>  "config-mysql/jdbc.sql"
       #statement =>  "select * from persion"
       schedule =>  "* * * * *"
       #索引的类型
       type =>  "jdbc"
 
 
       # 是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中
       record_last_run =>  "true"
 
       # 是否需要记录某个column 的值,如果record_last_run为真,可以自定义我们需要 track 的 column 名称,此时该参数就要为  true . 否则默认 track 的是 timestamp 的值.
       use_column_value =>  "true"
 
       # 如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的. 一般是mysql主键
       tracking_column =>  "id"
 
       last_run_metadata_path =>  "/usr/local/logstash/logstash-6.1.1/bin/config-mysql/last_id"
             # 是否清除 last_run_metadata_path 的记录,如果为真那么每次都相当于从头开始查询所有的数据库记录
       clean_run =>  "false"
 
       #是否将 字段(column) 名称转小写
       lowercase_column_names =>  "false"
 
     }
}
 
filter {
     json {
         source =>  "message"
         remove_field => [ "message" ]
     }
}
 
output {
     elasticsearch {
         hosts =>  "127.0.0.1:9200"
         # index名
         index =>  "sychronize_mysql"
# 需要关联的数据库中有有一个id字段,对应索引的id号
         document_id =>  "%{id}"
     }
     stdout {
         codec => json_lines
     }
}

此处需要mysql-connector-java-5.1.45-bin.jar包,自行下载

jdbc.sql说明

SELECT
*
 
FROM
persion
 
WHERE
id > :sql_last_value


./bin/logstash -f config-mysql/mysql2.conf

如未报错,则去localhost:9100去查看数据是否已经同步.


六,可能遇到的问题

1.elasticsearch数据重复以及增量同步

在默认配置下,tracking_column这个值是@timestamp,存在elasticsearch就是_id值,是logstash存入elasticsearch的时间,这个值的主要作用类似mysql的主键,是唯一的,但是我们的时间戳其实是一直在变的,所以我们每次使用select语句查询的数据都会存入elasticsearch中,导致数据重复。
解决方法:在要查询的表中,找主键或者自增值的字段,将它设置为_id的值,因为_id值是唯一的,所以,当有重复的_id的时候,数据就不会重复

  // 是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中
  record_last_run => "true"

  // 是否需要记录某个column 的值,如果record_last_run为真,可以自定义我们需要 track 的 column 名称,此时该参数就要为 true. 否则默认 track 的是 timestamp 的值.
  use_column_value => "true"

  // 如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的. 一般是mysql主键
  tracking_column => "autoid"

2.数据同步频繁,影响mysql数据库性能

我们写入jdbc.sql文件的mysql语句是写死的,所以每次查询的数据库有很多是已经不需要去查询的,尤其是每次select * from table;的时候,对mysql数据库造成了非常大的压力

解决:(1)根据业务需求,可以适当修改定时同步时间,我这里对实时性相对要求较高,因此设置了10分钟

  // 这里类似crontab,可以定制定时操作,比如每10分钟执行一次同步(分 时 天 月 年)
  schedule => "*/10 * * * *"

(2)设置mysql查询范围,防止大量的查询拖死数据库

  // 如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的. 一般是mysql主键
  tracking_column => "autoid"

  // 上次执行数据库的值,该值是上次查询时tracking_column设置的字段最大值
  last_run_metadata_path => "/opt/logstash/conf/last_id"

  // 是否清除 last_run_metadata_path 的记录,如果为真那么每次都相当于从头开始查询所有的数据库记录
  clean_run => "false"

在sql语句这里设置select * from WHERE autoid > :sql_last_value;
注意:如果你的语句比较复杂,autoid > :sql_last_value一定要写在WHERE后面,然后接AND即可

3.elasticsearch存储容量不断上升

稍微观察下就会发现,即使没有新的数据写入到elasticsearch里面,但只要logstash定时每次运行,elasticsearch容量就不断上升

过一段时间看,占用空间增大,其实elasticsearch数据是一样的

原因:在elasticsearch/nodes/0/indices/jdbc/{0,1,2,3,4}/下有个translog,这个是elasticsearch的事务日志,类似mysql的binlog。elasticsearch为了数据安全,接收到数据后,先将数据写入内存和translog,然后再建立索引写入到磁盘,这样即使突然断电,重启后,还可以通过translog恢复,不过这里由于我们每次查询都有很多重复的数据,而这些重复的数据又没有写入到elasticsearch的索引中,所以就囤积了下来

解决:查询官网说会定期refresh,会自动清理掉老的日志,因此可不做处理

4.增量同步和mysql范围查询导致mysql数据库有修改时无法同步到以前的数据

增量同步解决了,mysql每次都小范围查询,解决了数据库压力的问题,不过却导致无法同步老数据的修改问题

解决:可根据业务状态来做,如果你数据库是修改频繁类型,那只能做全量更新了,但是高频率大范围扫描数据库来做的索引还不如不做索引了(因为建立索引也是有成本的),我们做索引主要是针对一些数据量大,不常修改,很消耗数据库性能的情况。我这里是数据修改较少,而且修改也一般是近期数据,因为同步时,我在mysql范围上面稍微调整一下

如:autoid > (:sql_last_value-100000),每次扫描上次扫描范围往之前再多10W行,这样扫描的数据量相对较小,也照顾到了可能会修改的数据类型

但是范围扫描还存在一个问题,就是过往的数据写入了elasticsearch之后,如果有修改,而又不在范围扫描以内,那么elasticsearch就不会同步到。因此,我们还可以定期做一次全量或者更大范围的同步,只需要修改范围值即可。具体的值当然可以根据业务来定

未完待续......

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值