自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (11)
  • 收藏
  • 关注

原创 elasticsearch 笔记十九:倒排索引

倒排索引的结构(1)包含这个关键词的document list(2)包含这个关键词的所有document的数量:IDF(inverse document frequency)(3)这个关键词在每个document中出现的次数:TF(term frequency)(4)这个关键词在这个document中的次序(5)每个document的长度:length norm(6)包含这个关键词的...

2018-10-25 17:25:43 145

原创 elasticsearch 笔记十八:索引管理

1、创建索引创建索引的语法PUT /my_index{ "settings": { ... any settings ... }, "mappings": { "type_one": { ... any mappings ... }, "type_two": { ... any mappings ... }, ... ...

2018-10-25 17:06:34 103

原创 elasticsearch 笔记十七:基于scroll技术滚动搜索大量的数据

        如果一次性要查出来比如10万条数据,那么性能会很差,此时一般会采取用scoll滚动查询,一批一批的查,直到所有数据都查询完处理完。使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的,采用基于_...

2018-10-25 16:50:28 296

原创 elasticsearch 笔记十六:phase

query phase(1)搜索请求发送到某一个coordinate node,构构建一个priority queue,长度以paging操作from和size为准,默认为10(2)coordinate node将请求转发到所有shard,每个shard本地搜索,并构建一个本地的priority queue(3)各个shard将自己的priority queue返回给coordinate ...

2018-10-25 16:19:24 233

原创 elasticsearch 笔记十五:相关度评分TF&IDF算法简介

算法介绍relevance score ,就是计算出一个索引中的文本,与搜索文本,他们之间的关系,它们之间的关联匹配度是由Elasticsearch使用的 term frequency/inverse document frequency 算法,简称TF/IDF算法Term frequency :搜索文本中的各个词条在field 文本中出现多少次,出现的次数越多,就越相关Inverse...

2018-10-25 15:30:45 315

原创 elasticsearch 笔记十四:_filter 和query 相关原理

GET /company/employee/_search{ "query":{ "must":[ "match":{ "join_date": "2016-01-01" } ], "filter":{ "range&

2018-10-25 14:50:10 227 1

原创 elasticsearch 笔记十三:query string

GET /test_index/test_type/_search?q=test_field:test //包含test的搜索出来GET /test_index/test_type/_search?q=+test_field:test //包含test的搜索出来GET /test_index/test_type/_search?q=-test_field:test //不包含test搜索...

2018-10-24 17:15:37 328

原创 elasticsearch 笔记十二:分页搜索,deep paging 问题

1.分页搜索GET /_search?size=10GET /_search?size=10&from=0GET /_search?size=10&from202.deep paging性能问题的原理

2018-10-24 16:45:08 155

原创 elasticsearch 笔记十一:搜索请求和timeout

{ "took": 10, //花费多少ms "timed_out": false, "_shards": { "total": 9, //到多少shard "successful": 9, "failed": 0 }, "hits": { "total": 7, "ma

2018-10-24 16:30:32 1960

原创 elasticsearch 笔记十: 写一致性原理和quorum

consistency ,one (primary shard),all(all shard),quorum(default)put /index/type/id?consistency=quorumone  :要求这个写操作,只要有一个primary shard 是active活跃可用的,就可以执行 all :要求这个写操作,必须所有的primary shard 和replica sh...

2018-10-24 15:44:43 286

原创 elasticsearch 笔记九:document路由原理

 路由算法:shard = hash(routing) % number_of_primary_shards 举个例子,一个index有3个primary shard,P0,P1,P2每次增删改查一个document的时候,都会带过来一个routing number,默认就是这个document的_id(可能是手动指定,也可能是自动生成)routing = _id,假设_id=1...

2018-10-24 15:07:48 147

原创 elasticsearch 笔记八:bulk 批量增删该查

1、bulk语法POST /_bulk{ "delete": { "_index": "test_index", "_type": "test_type", "_id": "3" }} { "create": { "_index": "test_index", "_type": &q

2018-10-24 14:48:32 658

原创 elasticsearch 笔记七: es乐观锁的并发控制

1.并发控制es 的并发控制是通过多version来实现的(不清楚乐观锁的自己提升去)2.实例//创建索引PUT /test_index/test_type/7{ "test_field": "test test"}//返回创建结果GET test_index/test_type/7{ "_index": "test_index", "_type": ".

2018-10-24 11:35:00 1102

原创 elasticsearch 笔记六: 核心元素据

_index(1) 代表一个document放在那个index 中(2) 类似的数据放在一个索引,非类似的数据放在不同的索引(3)index 中包含了很多类似的document(4)索引名称必须是小写,不能用下划线开头_type(1)代表document 属于index中的那个类别(2)一个索引通常会划分为多个type,逻辑上对index中有些许不同几类数据进行分类...

2018-10-23 17:27:50 139

原创 elasticsearch 笔记五:基础分布式架构

1. elasticsearch 对复杂分布式机制的透明隐藏特性1)分片机制2)集群发现机制3)shard 负载均衡4)shard 副本,请求路由,集群扩容,shard重分配

2018-10-23 11:04:58 274

原创 elasticsearch 笔记四:聚合分析

1.第一个分析需求:计算每个tag下的商品数量 GET /ecommerce/product/_search{ "aggs": { "group_by_tags": { "terms": { "field": "tags" } } }}------------------------------------------...

2018-10-23 10:17:52 154

原创 elasticsearch 笔记三: 多种搜索方式

 六种搜索方式1.query string searchGET /ecommerce/product/_search{ "took": 8, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": {

2018-10-23 09:34:29 152

原创 elasticsearch 笔记二: 集群健康检查,文档CRUD

集群管理(1)GET /_cat/health?vgreen //每个索引的primary shard 和replica shard 都是activeyellow //每个primary shard 都是active状态的,但是部分replica shard 不是active red //不是所有primary shard 都是active 状态(2)查看集群中有那些索引GE...

2018-10-22 17:11:10 238

原创 elasticsearch 笔记一: 核心概念

es和lucene 封装分布式的文档存储引擎 分布式的搜索引擎和分析引擎 分布式,支持PB级数据es 核心概念NRT: 写入数据到可以被所搜到有一个小延迟(大概1秒) 集群:Cluster,集群包含多个节点,每个节点也有一个名称(默认是elasticsearch) Node:节点 Document:最小的数据单元,可以是一条商品数据,一条分类数据 Index:索引,包含一堆相...

2018-10-22 15:33:08 217

原创 max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

解决办法:1、切换到root用户修改配置sysctl.conf 或者是sudo vim sysctl.confvi /etc/sysctl.conf 添加下面配置: vm.max_map_count=262144并执行命令:sysctl -p

2018-10-22 11:37:06 532

原创 max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]

问题翻译过来就是:elasticsearch用户拥有的可创建文件描述的权限太低,至少需要65536;解决办法:#切换到root用户修改vim /etc/security/limits.conf在最后面追加下面内容XX hard nofile 65536XX soft nofile 65536XX 是启动ES的用户...

2018-10-22 11:34:27 646

原创 ssh 免密码登录的另一种方式

sudo yum install expect#!/usr/bin/expectset timeout 3spawn ssh root@192.168.234.249expect "*password*"send "123456\r"send "sudo -s\r"send "cd /data/logs\r"interact

2018-10-16 17:13:07 111

漫谈大数据和数据挖掘.pdf

漫谈大数据和数据挖掘.pdf

2021-06-17

Garbage-First LSM 论文

Garbage-First is a server-style garbage collector, targeted for multi-processors with large memories, that meets a soft real-time goal with high probability, while achieving high throughput. Whole-heap operations, such as global mark- ing, are performed concurrently with mutation, to prevent interruptions proportional to heap or live-data size. Concur- rent marking both provides collection "completeness" and identies regions ripe for reclamation via compacting evac- uation. This evacuation is performed in parallel on multi- processors, to increase throughput.

2019-06-13

rabbit in action

rabbitmq in action 中文版英文版压缩包,解压密码是123456

2019-02-19

java 并发编程实战

java 并发编程实战 中文版 英文版 读书的思维导图 Advance praise for Java Concurrency in Practice

2018-12-26

spring 5 , Spring Boot 2.0,Spring cloud

spring 5 in action pdf ,Learning Spring Boot 2.0 pdf,Spring Microservices in Action-Manning.pdf

2018-12-05

Linux Shell脚本攻略(第2版)

如果你是一位初中级用户,希望通过掌握快速编写脚本的技巧来完成各类事务处理,而又不 愿去逐页翻阅手册,那么本书就是写给你的。你不用了解任何shell脚本或Linux的工作原理,只 需要参照书中类似的例子和描述就可以动手了。对于中高级用户以及系统管理员或程序员而言, 本书则是在编码过程中寻求问题解决之道的一份绝佳参考资料。

2018-11-13

kafka-definitive-guide pdf

As we mentioned in the previous section about committing offsets, a consumer will want to do some cleanup work before exiting and also before partition rebalancing. If you know your consumer is about to lose ownership of a partition, you will want to commit offsets of the last event you’ve processed

2018-11-13

office android

可以打开Android office的源代码程序欢迎下载!

2015-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除