2018年10月_qzqanlhy1314

12月 11月 10月 09月 07月 06月 05月 04月 03月 01月

原创 elasticsearch 笔记十九：倒排索引

倒排索引的结构（1）包含这个关键词的document list（2）包含这个关键词的所有document的数量：IDF（inverse document frequency）（3）这个关键词在每个document中出现的次数：TF（term frequency）（4）这个关键词在这个document中的次序（5）每个document的长度：length norm（6）包含这个关键词的...

2018-10-25 17:25:43 145

原创 elasticsearch 笔记十八：索引管理

1、创建索引创建索引的语法PUT /my_index{ "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ... }, "type_two": { ... any mappings ... }, ... ...

2018-10-25 17:06:34 103

原创 elasticsearch 笔记十七：基于scroll技术滚动搜索大量的数据

如果一次性要查出来比如10万条数据，那么性能会很差，此时一般会采取用scoll滚动查询，一批一批的查，直到所有数据都查询完处理完。使用scoll滚动搜索，可以先搜索一批数据，然后下次再搜索一批数据，以此类推，直到搜索出全部的数据来scoll搜索会在第一次搜索的时候，保存一个当时的视图快照，之后只会基于该旧的视图快照提供数据搜索，如果这个期间数据变更，是不会让用户看到的，采用基于_...

2018-10-25 16:50:28 296

原创 elasticsearch 笔记十六：phase

query phase（1）搜索请求发送到某一个coordinate node，构构建一个priority queue，长度以paging操作from和size为准，默认为10（2）coordinate node将请求转发到所有shard，每个shard本地搜索，并构建一个本地的priority queue（3）各个shard将自己的priority queue返回给coordinate ...

2018-10-25 16:19:24 233

原创 elasticsearch 笔记十五：相关度评分TF&IDF算法简介

算法介绍relevance score ,就是计算出一个索引中的文本，与搜索文本，他们之间的关系，它们之间的关联匹配度是由Elasticsearch使用的 term frequency/inverse document frequency 算法，简称TF/IDF算法Term frequency :搜索文本中的各个词条在field 文本中出现多少次，出现的次数越多，就越相关Inverse...

2018-10-25 15:30:45 315

原创 elasticsearch 笔记十四：_filter 和query 相关原理

GET /company/employee/_search{ "query":{ "must":[ "match":{ "join_date": "2016-01-01" } ], "filter":{ "range&

2018-10-25 14:50:10 227 1

原创 elasticsearch 笔记十三：query string

GET /test_index/test_type/_search?q=test_field:test //包含test的搜索出来GET /test_index/test_type/_search?q=+test_field:test //包含test的搜索出来GET /test_index/test_type/_search?q=-test_field:test //不包含test搜索...

2018-10-24 17:15:37 328

原创 elasticsearch 笔记十二：分页搜索，deep paging 问题

1.分页搜索GET /_search?size=10GET /_search?size=10&from=0GET /_search?size=10&from202.deep paging性能问题的原理

2018-10-24 16:45:08 155

原创 elasticsearch 笔记十一：搜索请求和timeout

{ "took": 10, //花费多少ms "timed_out": false, "_shards": { "total": 9, //到多少shard "successful": 9, "failed": 0 }, "hits": { "total": 7, "ma

2018-10-24 16:30:32 1960

原创 elasticsearch 笔记十：写一致性原理和quorum

consistency ,one (primary shard),all(all shard),quorum(default)put /index/type/id?consistency=quorumone :要求这个写操作，只要有一个primary shard 是active活跃可用的，就可以执行 all :要求这个写操作，必须所有的primary shard 和replica sh...

2018-10-24 15:44:43 286

原创 elasticsearch 笔记九：document路由原理

路由算法：shard = hash(routing) % number_of_primary_shards 举个例子，一个index有3个primary shard，P0，P1，P2每次增删改查一个document的时候，都会带过来一个routing number，默认就是这个document的_id（可能是手动指定，也可能是自动生成）routing = _id，假设_id=1...

2018-10-24 15:07:48 147

原创 elasticsearch 笔记八：bulk 批量增删该查

1、bulk语法POST /_bulk{ "delete": { "_index": "test_index", "_type": "test_type", "_id": "3" }} { "create": { "_index": "test_index", "_type": &q

2018-10-24 14:48:32 658

原创 elasticsearch 笔记七: es乐观锁的并发控制

1.并发控制es 的并发控制是通过多version来实现的(不清楚乐观锁的自己提升去)2.实例//创建索引PUT /test_index/test_type/7{ "test_field": "test test"}//返回创建结果GET test_index/test_type/7{ "_index": "test_index", "_type": ".

2018-10-24 11:35:00 1102

原创 elasticsearch 笔记六：核心元素据

_index(1) 代表一个document放在那个index 中(2) 类似的数据放在一个索引，非类似的数据放在不同的索引(3)index 中包含了很多类似的document(4)索引名称必须是小写，不能用下划线开头_type(1)代表document 属于index中的那个类别(2)一个索引通常会划分为多个type,逻辑上对index中有些许不同几类数据进行分类...

2018-10-23 17:27:50 139

原创 elasticsearch 笔记五：基础分布式架构

1. elasticsearch 对复杂分布式机制的透明隐藏特性1）分片机制2）集群发现机制3）shard 负载均衡4）shard 副本，请求路由，集群扩容，shard重分配

2018-10-23 11:04:58 274

原创 elasticsearch 笔记四：聚合分析

1.第一个分析需求：计算每个tag下的商品数量 GET /ecommerce/product/_search{ "aggs": { "group_by_tags": { "terms": { "field": "tags" } } }}------------------------------------------...

2018-10-23 10:17:52 154

原创 elasticsearch 笔记三: 多种搜索方式

六种搜索方式1.query string searchGET /ecommerce/product/_search{ "took": 8, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": {

2018-10-23 09:34:29 152

原创 elasticsearch 笔记二: 集群健康检查，文档CRUD

集群管理（1）GET /_cat/health?vgreen //每个索引的primary shard 和replica shard 都是activeyellow //每个primary shard 都是active状态的，但是部分replica shard 不是active red //不是所有primary shard 都是active 状态(2)查看集群中有那些索引GE...

2018-10-22 17:11:10 238

原创 elasticsearch 笔记一: 核心概念

es和lucene 封装分布式的文档存储引擎分布式的搜索引擎和分析引擎分布式，支持PB级数据es 核心概念NRT: 写入数据到可以被所搜到有一个小延迟（大概1秒）集群：Cluster,集群包含多个节点，每个节点也有一个名称（默认是elasticsearch） Node:节点 Document:最小的数据单元，可以是一条商品数据，一条分类数据 Index:索引，包含一堆相...

2018-10-22 15:33:08 217

原创 max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

解决办法：1、切换到root用户修改配置sysctl.conf 或者是sudo vim sysctl.confvi /etc/sysctl.conf 添加下面配置： vm.max_map_count=262144并执行命令：sysctl -p

2018-10-22 11:37:06 532

原创 max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]

问题翻译过来就是：elasticsearch用户拥有的可创建文件描述的权限太低，至少需要65536；解决办法：#切换到root用户修改vim /etc/security/limits.conf在最后面追加下面内容XX hard nofile 65536XX soft nofile 65536XX 是启动ES的用户...

2018-10-22 11:34:27 646

原创 ssh 免密码登录的另一种方式

sudo yum install expect#!/usr/bin/expectset timeout 3spawn ssh root@192.168.234.249expect "*password*"send "123456\r"send "sudo -s\r"send "cd /data/logs\r"interact

2018-10-16 17:13:07 111

Garbage-First is a server-style garbage collector, targeted for multi-processors with large memories, that meets a soft real-time goal with high probability, while achieving high throughput. Whole-heap operations, such as global mark- ing, are performed concurrently with mutation, to prevent interruptions proportional to heap or live-data size. Concur- rent marking both provides collection "completeness" and identies regions ripe for reclamation via compacting evac- uation. This evacuation is performed in parallel on multi- processors, to increase throughput.

2019-06-13

rabbit in action

rabbitmq in action 中文版英文版压缩包，解压密码是123456

2019-02-19

java 并发编程实战

java 并发编程实战中文版英文版读书的思维导图 Advance praise for Java Concurrency in Practice

2018-12-26

spring 5 , Spring Boot 2.0,Spring cloud

spring 5 in action pdf ,Learning Spring Boot 2.0 pdf，Spring Microservices in Action-Manning.pdf

2018-12-05

Linux Shell脚本攻略（第2版）

如果你是一位初中级用户，希望通过掌握快速编写脚本的技巧来完成各类事务处理，而又不愿去逐页翻阅手册，那么本书就是写给你的。你不用了解任何shell脚本或Linux的工作原理，只需要参照书中类似的例子和描述就可以动手了。对于中高级用户以及系统管理员或程序员而言，本书则是在编码过程中寻求问题解决之道的一份绝佳参考资料。

2018-11-13

kafka-definitive-guide pdf

As we mentioned in the previous section about committing offsets, a consumer will want to do some cleanup work before exiting and also before partition rebalancing. If you know your consumer is about to lose ownership of a partition, you will want to commit offsets of the last event you’ve processed