全文检索工具elasticsearch：第一章：理论知识，面试一问Kafka就心慌

最新推荐文章于 2024-07-04 14:41:08 发布

碧海朝天素

最新推荐文章于 2024-07-04 14:41:08 发布

阅读量994

点赞数 24

分类专栏： 2024年程序员学习文章标签：全文检索 elasticsearch 面试

本文链接：https://blog.csdn.net/m0_58687762/article/details/136965266

版权

2024年程序员学习专栏收录该内容

317 篇文章 1 订阅

订阅专栏

例如

搜索“红海行动”

但是数据库中保存的数据如图：

那么搜索引擎是如何能将两者匹配上的呢？

基于分词技术构建倒排索引：

首先每个记录保存数据时，都不会直接存入数据库。系统先会对数据进行分词，然后以倒排索引结构保存。如下：

然后等到用户搜索的时候，会把搜索的关键词也进行分词，会把“红海行动”分词分成：红海和行动两个词。

这样的话，先用红海进行匹配，得到id=1和id=2的记录编号，再用行动匹配可以迅速定位id为1,3的记录。

那么全文索引通常，还会根据匹配程度进行打分，显然1号记录能匹配的次数更多。所以显示的时候以评分进行排序的话，1号记录会排到最前面。而2、3号记录也可以匹配到。

全文检索工具elasticsearch

==================================

lucene与elasticsearch

咱们之前讲的处理分词，构建倒排索引，等等，都是这个叫lucene的做的。那么能不能说这个lucene就是搜索引擎呢？

还不能。lucene只是一个提供全文搜索功能类库的核心工具包，而真正使用它还需要一个完善的服务框架搭建起来的应用。

好比lucene是类似于jdk，而搜索引擎软件就是tomcat 的。

目前市面上流行的搜索引擎软件，主流的就两款，elasticsearch和solr,这两款都是基于lucene的搭建的，可以独立部署启动的搜索引擎服务软件。由于内核相同，所以两者除了服务器安装、部署、管理、集群以外，对于数据的操作，修改、添加、保存、查询等等都十分类似。就好像都是支持sql语言的两种数据库软件。只要学会其中一个另一个很容易上手。

从实际企业使用情况来看，elasticSearch的市场份额逐步在取代solr，国内百度、京东、新浪都是基于elasticSearch实现的搜索功能。国外就更多了像维基百科、GitHub、Stack Overflow等等也都是基于ES的

elasticSearch的使用场景

为用户提供按关键字查询的全文搜索功能。
著名的ELK框架(ElasticSearch,Logstash,Kibana)，实现企业海量日志的处理分析的解决方案。大数据领域的重要一份子。

elasticSearch的安装

全文检索工具elasticsearch：第二章：安装配置

elasticsearch的基本概念

cluster	整个elasticsearch 默认就是集群状态，整个集群是一份完整、互备的数据。
node	集群中的一个节点，一般只一个进程就是一个node
shard	分片，即使是一个节点中的数据也会通过hash算法，分成多个片存放，默认是5片。
index	相当于rdbms的database, 对于用户来说是一个逻辑数据库，虽然物理上会被分多个shard存放，也可能存放在多个node中。
type	类似于rdbms的table，但是与其说像table，其实更像面向对象中的class , 同一Json的格式的数据集合。
document	类似于rdbms的 row、面向对象里的object
field	相当于字段、属性

利用kibana学习 elasticsearch restful api (DSL)****

执行bin目录下的kibana程序：

cd /opt/kibana-5.6.4-linux-x86_64/bin

./kibana

es中保存的数据结构

public class Movie {

String id;

String name;

Double doubanScore;

List<Actor> actorList;

}

public class Actor{

String id;

String name;

}

这两个对象如果放在关系型数据库保存，会被拆成2张表，但是elasticsearch是用一个json来表示一个document。

所以他保存到es中应该是：

{

“id”:”1”,

“name”:”operation red sea”,

“doubanScore”:”8.5”,

“actorList”:[

{“id”:”1”,”name”:”zhangyi”},

{“id”:”2”,”name”:”haiqing”},

{“id”:”3”,”name”:”zhanghanyu”}

]

}

对数据的操作增删改查

查看es中有哪些索引

GET /_cat/indices?v

es 中会默认存在一个名为.kibana的索引

health status index uuid pri rep docs.count docs.deleted store.size pri.store.size

yellow open .kibana sBDZ-v6YQMWx9GaQOmSQQg 1 1 1 0 3.2kb 3.2kb

表头的含义

health	green(集群完整) yellow(单点正常、集群不完整) red(单点不正常)
status	是否能使用
index	索引名
uuid	索引统一编号
pri	主节点几个
rep	从节点几个
docs.count	文档数
docs.deleted	文档被删了多少
store.size	整体占空间大小
pri.store.size	主节点占

增加一个索引

PUT /movie_index

{

“acknowledged”: true,

“shards_acknowledged”: true,

“index”: “movie_index”

}

删除一个索引

ES 是不删除也不修改任何数据

DELETE /movie_index

{

“acknowledged”: true

}

新增文档

格式：PUT /index/type/id

PUT /movie_index/movie/1

{ "id":1,

"name":"operation red sea",

"doubanScore":8.5,

"actorList":[

{"id":1,"name":"zhang yi"},

{"id":2,"name":"hai qing"},

{"id":3,"name":"zhang han yu"}

]

}

PUT /movie_index/movie/2

{

"id":2,

"name":"operation meigong river",

"doubanScore":8.0,

"actorList":[

{"id":3,"name":"zhang han yu"}

]

}

PUT /movie_index/movie/3

{

"id":3,

"name":"incident red sea",

"doubanScore":5.0,

"actorList":[

{"id":4,"name":"zhang chen"}

]

}

如果之前没建过index或者type，es 会自动创建。

直接用id查找

GET movie_index/movie/1

修改**—**整体替换

和新增没有区别

PUT /movie_index/movie/3

{

"id":"3",

"name":"incident red sea",

"doubanScore":"5.0",

"actorList":[

{"id":"1","name":"zhang chen"}

]

}

修改**—某个字段******

POST movie_index/movie/3/_update

{

"doc": {

"doubanScore":"7.0"

}

修改**—某个字段和**** 修改****—**整体替换二者选一，否则：

删除一个document

DELETE movie_index/movie/3

{

“found”: true,

“_index”: “movie_index”,

“_type”: “movie”,

“_id”: “3”,

“_version”: 18,

“result”: “deleted”,

“_shards”: {

“total”: 2,

“successful”: 1,

“failed”: 0

}

搜索type全部数据

GET movie_index/movie/_search

结果

{

"took": 2, //耗费时间毫秒

"timed_out": false, //是否超时

"_shards": {

"total": 5, //发送给全部5个分片

"successful": 5,

"skipped": 0,

"failed": 0

"hits": {

"total": 3, //命中3条数据

"max_score": 1, //最大评分

"hits": [ // 结果

{

"_index": "movie_index",

"_type": "movie",

"_id": 2,

"_score": 1,

"_source": {

"id": "2",

"name": "operation meigong river",

"doubanScore": 8.0,

"actorList": [

{

"id": "1",

"name": "zhang han yu"

}

]

}

。。。。。。。。

}

按条件查询(全部)

GET movie_index/movie/_search

{

"query":{

"match_all": {}

}

按分词查询

GET movie_index/movie/_search

{

"query":{

"match": {"name":"red"}

}

注意结果的评分

按分词子属性查询

GET movie_index/movie/_search

{

"query":{

"match": {"actorList.name":"zhang"}

}

结果：

{

“took”: 2,

“timed_out”: false,

“_shards”: {

“total”: 5,

“successful”: 5,

“skipped”: 0,

“failed”: 0

“hits”: {

“total”: 2,

“max_score”: 1,

“hits”: [

{

“_index”: “movie_index”,

“_type”: “movie”,

“_id”: “2”,

“_score”: 1,

“_source”: {

“id”: 2,

“name”: “operation meigong river”,

“doubanScore”: 8,

“actorList”: [

{

“id”: 3,

“name”: “zhang han yu”

}

]

}

{

“_index”: “movie_index”,

“_type”: “movie”,

“_id”: “1”,

“_score”: 1,

“_source”: {

“id”: 1,

“name”: “operation red sea”,

“doubanScore”: 8.5,

“actorList”: [

{

“id”: 1,

“name”: “zhang yi”

{

“id”: 2,

“name”: “hai qing”

{

“id”: 3,

“name”: “zhang han yu”

}

]

}

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Java工程师，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注Java）

最后

一次偶然，从朋友那里得到一份“java高分面试指南”，里面涵盖了25个分类的面试题以及详细的解析：JavaOOP、Java集合/泛型、Java中的IO与NIO、Java反射、Java序列化、Java注解、多线程&并发、JVM、Mysql、Redis、Memcached、MongoDB、Spring、Spring Boot、Spring Cloud、RabbitMQ、Dubbo 、MyBatis 、ZooKeeper 、数据结构、算法、Elasticsearch 、Kafka 、微服务、Linux。

这不，马上就要到招聘季了，很多朋友又开始准备“金三银四”的春招啦，那我想这份“java高分面试指南”应该起到不小的作用，所以今天想给大家分享一下。