- 博客(22)
- 资源 (11)
- 收藏
- 关注
原创 elasticsearch 笔记十九:倒排索引
倒排索引的结构(1)包含这个关键词的document list(2)包含这个关键词的所有document的数量:IDF(inverse document frequency)(3)这个关键词在每个document中出现的次数:TF(term frequency)(4)这个关键词在这个document中的次序(5)每个document的长度:length norm(6)包含这个关键词的...
2018-10-25 17:25:43 145
原创 elasticsearch 笔记十八:索引管理
1、创建索引创建索引的语法PUT /my_index{ "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ... }, "type_two": { ... any mappings ... }, ... ...
2018-10-25 17:06:34 103
原创 elasticsearch 笔记十七:基于scroll技术滚动搜索大量的数据
如果一次性要查出来比如10万条数据,那么性能会很差,此时一般会采取用scoll滚动查询,一批一批的查,直到所有数据都查询完处理完。使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的,采用基于_...
2018-10-25 16:50:28 296
原创 elasticsearch 笔记十六:phase
query phase(1)搜索请求发送到某一个coordinate node,构构建一个priority queue,长度以paging操作from和size为准,默认为10(2)coordinate node将请求转发到所有shard,每个shard本地搜索,并构建一个本地的priority queue(3)各个shard将自己的priority queue返回给coordinate ...
2018-10-25 16:19:24 233
原创 elasticsearch 笔记十五:相关度评分TF&IDF算法简介
算法介绍relevance score ,就是计算出一个索引中的文本,与搜索文本,他们之间的关系,它们之间的关联匹配度是由Elasticsearch使用的 term frequency/inverse document frequency 算法,简称TF/IDF算法Term frequency :搜索文本中的各个词条在field 文本中出现多少次,出现的次数越多,就越相关Inverse...
2018-10-25 15:30:45 315
原创 elasticsearch 笔记十四:_filter 和query 相关原理
GET /company/employee/_search{ "query":{ "must":[ "match":{ "join_date": "2016-01-01" } ], "filter":{ "range&
2018-10-25 14:50:10 227 1
原创 elasticsearch 笔记十三:query string
GET /test_index/test_type/_search?q=test_field:test //包含test的搜索出来GET /test_index/test_type/_search?q=+test_field:test //包含test的搜索出来GET /test_index/test_type/_search?q=-test_field:test //不包含test搜索...
2018-10-24 17:15:37 328
原创 elasticsearch 笔记十二:分页搜索,deep paging 问题
1.分页搜索GET /_search?size=10GET /_search?size=10&from=0GET /_search?size=10&from202.deep paging性能问题的原理
2018-10-24 16:45:08 155
原创 elasticsearch 笔记十一:搜索请求和timeout
{ "took": 10, //花费多少ms "timed_out": false, "_shards": { "total": 9, //到多少shard "successful": 9, "failed": 0 }, "hits": { "total": 7, "ma
2018-10-24 16:30:32 1960
原创 elasticsearch 笔记十: 写一致性原理和quorum
consistency ,one (primary shard),all(all shard),quorum(default)put /index/type/id?consistency=quorumone :要求这个写操作,只要有一个primary shard 是active活跃可用的,就可以执行 all :要求这个写操作,必须所有的primary shard 和replica sh...
2018-10-24 15:44:43 286
原创 elasticsearch 笔记九:document路由原理
路由算法:shard = hash(routing) % number_of_primary_shards 举个例子,一个index有3个primary shard,P0,P1,P2每次增删改查一个document的时候,都会带过来一个routing number,默认就是这个document的_id(可能是手动指定,也可能是自动生成)routing = _id,假设_id=1...
2018-10-24 15:07:48 147
原创 elasticsearch 笔记八:bulk 批量增删该查
1、bulk语法POST /_bulk{ "delete": { "_index": "test_index", "_type": "test_type", "_id": "3" }} { "create": { "_index": "test_index", "_type": &q
2018-10-24 14:48:32 658
原创 elasticsearch 笔记七: es乐观锁的并发控制
1.并发控制es 的并发控制是通过多version来实现的(不清楚乐观锁的自己提升去)2.实例//创建索引PUT /test_index/test_type/7{ "test_field": "test test"}//返回创建结果GET test_index/test_type/7{ "_index": "test_index", "_type": ".
2018-10-24 11:35:00 1102
原创 elasticsearch 笔记六: 核心元素据
_index(1) 代表一个document放在那个index 中(2) 类似的数据放在一个索引,非类似的数据放在不同的索引(3)index 中包含了很多类似的document(4)索引名称必须是小写,不能用下划线开头_type(1)代表document 属于index中的那个类别(2)一个索引通常会划分为多个type,逻辑上对index中有些许不同几类数据进行分类...
2018-10-23 17:27:50 139
原创 elasticsearch 笔记五:基础分布式架构
1. elasticsearch 对复杂分布式机制的透明隐藏特性1)分片机制2)集群发现机制3)shard 负载均衡4)shard 副本,请求路由,集群扩容,shard重分配
2018-10-23 11:04:58 274
原创 elasticsearch 笔记四:聚合分析
1.第一个分析需求:计算每个tag下的商品数量 GET /ecommerce/product/_search{ "aggs": { "group_by_tags": { "terms": { "field": "tags" } } }}------------------------------------------...
2018-10-23 10:17:52 154
原创 elasticsearch 笔记三: 多种搜索方式
六种搜索方式1.query string searchGET /ecommerce/product/_search{ "took": 8, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": {
2018-10-23 09:34:29 152
原创 elasticsearch 笔记二: 集群健康检查,文档CRUD
集群管理(1)GET /_cat/health?vgreen //每个索引的primary shard 和replica shard 都是activeyellow //每个primary shard 都是active状态的,但是部分replica shard 不是active red //不是所有primary shard 都是active 状态(2)查看集群中有那些索引GE...
2018-10-22 17:11:10 238
原创 elasticsearch 笔记一: 核心概念
es和lucene 封装分布式的文档存储引擎 分布式的搜索引擎和分析引擎 分布式,支持PB级数据es 核心概念NRT: 写入数据到可以被所搜到有一个小延迟(大概1秒) 集群:Cluster,集群包含多个节点,每个节点也有一个名称(默认是elasticsearch) Node:节点 Document:最小的数据单元,可以是一条商品数据,一条分类数据 Index:索引,包含一堆相...
2018-10-22 15:33:08 217
原创 max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
解决办法:1、切换到root用户修改配置sysctl.conf 或者是sudo vim sysctl.confvi /etc/sysctl.conf 添加下面配置: vm.max_map_count=262144并执行命令:sysctl -p
2018-10-22 11:37:06 532
原创 max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
问题翻译过来就是:elasticsearch用户拥有的可创建文件描述的权限太低,至少需要65536;解决办法:#切换到root用户修改vim /etc/security/limits.conf在最后面追加下面内容XX hard nofile 65536XX soft nofile 65536XX 是启动ES的用户...
2018-10-22 11:34:27 646
原创 ssh 免密码登录的另一种方式
sudo yum install expect#!/usr/bin/expectset timeout 3spawn ssh root@192.168.234.249expect "*password*"send "123456\r"send "sudo -s\r"send "cd /data/logs\r"interact
2018-10-16 17:13:07 111
Garbage-First LSM 论文
2019-06-13
spring 5 , Spring Boot 2.0,Spring cloud
2018-12-05
Linux Shell脚本攻略(第2版)
2018-11-13
kafka-definitive-guide pdf
2018-11-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人