【ElasticSearch】入门了解

基本概念

①索引(Index) :类似目录 精髓:一切的设计都是为了提高搜索的性能。

②类型(Type):类似关系型数据库中的表,7.X不再支持了。

③文档(Document): 一条数据

④字段(filed):相当于数据表的字段

⑤映射(Mapping):如某个字段的数据类型,默认值,分析器,是否被索引等

⑥分片(shards):类似关系型数据库分表。

⑦副本(Replicas):复制分片叫副本,防止数据丢失,拷贝数据。

⑧分配(Allocation):将分片分配给某个节点的过程,包括分配主/副分片,这个过程由master节点完成的。

ElaticSearch为什么会有如此的魅力呢?

横向可扩展性

只需要增加一台服务器,做一点儿配置,启动一下Es进程就可以并入集群。

分布性

同一个索引分成多个分片(sharding),类似HDFS的块机制,分而治之的方式可提升处理效率。

高可用

提供复制机制,一个分片可以设置多个复制,使得某台服务器在宕机的情况下,集群仍旧可以照常运行,并会把服务器宕机丢失的数据信息复制恢复到其他可用节点上。

使用简单

只需一条命令就可以下载文件,然后很快就能搭建一个站内搜索引擎。

倒排索引

基本概念

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包含一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而成为倒排索引。

读了一遍什么玩意呀,属性值 记录的地址蒙圈了,不要着急,其实你可以拿生活中的例子来类比吗,如 北京怀柔不能确定你(属性值),而通过你(属性值)可以确定你住在北京怀柔(记录的位置)。

倒排索引搜索过程?

查询单词是否在字典中,不在,搜索结束,在,看单词在倒排列表中的指针是什么,通过倒排列表获取单词所对应文档列表,拿文档id去对应数据。

总结:通过id找对应的文章内容。

通过分词策略形成单词 文字 文章之间的映射关系。

分词器 中英文不一样

keyWord代表不能分词,需要完全匹配

text 文本可以分词

ik_max_word 细粒度拆分 如:中国人 中国 国人

ik_smart 粗粒度拆分 如:中国人

三个名词

词条:索引中最小存储和查询单元

词典:字典 是词条的集合 B+tree HashMap

倒排表:关键词出现在什么位置,出现的频率是什么,每条记录称为倒排项。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值