自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 Flink部署-standalone模式

安装环境信息flink-1.6.2-bin-hadoop27-scala_2.11.tgzhadoop-2.7.5java 1.8zookeeper 3.4.6os:centos 6.41、下载直接去flink的社区下载就可以了。http://flink.apache.org/downloads.html2、解压 tar -zxvf flink-1.6.2-bin-hadoop...

2018-11-30 00:07:41 5333

原创 ES中搜索请求的讲解

ES中一个搜索请求是怎么流转的1、搜索请求发送到某一个coordinate node,构建一个priority queue,长度以paging操作from和size为准,默认为102、coordinate node将请求转发到所有shard,每个shard本地搜索,并构建一个本地priority queue3、各个shard将自己的priority queue返回给coordinate no...

2018-11-18 22:48:18 2456

原创 Apache Flink介绍

什么是FlinkFlink 它可以处理有界的数据集、也可以处理无界的数据集、它可以流式的处理数据、也可以批量的处理数据。所谓的无穷数据集就是我们日常中所说的实时数据,比如金融市场的实时交易记录,web的实时访问记录,所谓的有界数据集就是一些有限不会改变的数据集合,所以flink数据运算模型有流式和批处理。flink的官网https://flink.apache.orggithub地址ht...

2018-11-16 23:53:07 359

原创 ES中scroll技术

如果一次性要查询出一大批的数据,那么性能会很差,此时一般采用scoll滚动查询,一批一批的查询,直到所有的数据查询完成使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的采用基于_doc进行排序的方式,性能...

2018-11-16 00:41:38 8349

原创 ES分词算法

算法介绍1、relevance score算法,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度2、ES使用的是,term frequency/inverse document frequency算法,简称TF/IDF算法3、term frequency:搜索文本中的各个词条在field文本中出现了多少次,出现次数越多,就越相关4、inverse document freq...

2018-11-15 23:34:07 3932

原创 ES字符串排序问题

如果对一个text field进行排序,结果往往不准确,因为分词后是多个单词,再排序就不是我们想要的结果了通常解决方案是,将一个text field建立两次索引,一个分词,用来进行搜索;一个不分词,用来进行排序创建索引在ES6中没有String类型了,如果是不能被检索需要定义为keywordPUT /web5{ "mappings": { "article": { ...

2018-11-14 00:13:12 7622 2

原创 ES的查询接口

1、什么是query DSLGET /_search{ "query": { "match_all": {} }}query 中有哪些query_name全部查询出来 match allGET /web/info/_search --查询所有的文档{ "query": { "match_all": {} }}...

2018-11-11 00:38:51 5794

原创 ES中mapping讲解

注意:以下都是基于ES6操作的准备数据PUT /web/info/1{ "post_date": "2018-11-01", "title": "the first info", "content": "the first info in this web", "author_id": "xlucas"}PUT /web

2018-11-08 22:16:08 6759

原创 ES中search中参数讲解

1、搜索出来的一大堆参数,每个参数具体是什么意思took:表示整个搜索请求花费了多少毫秒hits.total:本次搜索,返回了几条结果hits.max_score:本次搜索的所有结果中,最大的相关度分数是多少。每一条document对于search的相关度,越相关,_score分数越大,排位越靠前hits.hits:默认查询出前10条数据,完整数据,_score降序排序shards:sh...

2018-11-07 23:07:06 5700

原创 ES中bulk的json的原理

前面我们讲解到ES在做批处理的时候,采用的多行json方式。这种有什么好处呢?1、bulk中的每个操作都可能要转发到不同的node的shard去执行2、如果采用比较良好的json数组格式(1)将json数组解析为JSONArray对象,这个时候,整个数据,就会在内存中出现一份一模一样的拷贝,一份数据是json文本,一份数据是JSONArray对象(2)解析json数组里的每个json,对每...

2018-11-05 00:50:26 946

原创 ES查询原理和timeout讲解

ES的查询过程1、客户端发送请求到任意一个node,成为coordinate node2、coordinate node对document进行路由,将请求转发到对应的node(primary或者replicanode上)上,此时使用round-robin随机轮询算法,在primary shard以及其所有的replica中随机选择一个,让读请求负载均衡3、接收请求的node返回documen...

2018-11-05 00:48:27 8618 8

原创 ES中document如何做写一致性

1、consistency ,one(primary shard),all(all shard),quorum(default)        我们在发送任何一个增删改操作的时候,都可以带上一个consistency参数,指明我们想要的写一致性是什么     &nb

2018-11-04 00:34:17 447

selenium2.53包

此包包含了IE、google的驱动文件,是selenium2.53的软件,详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包,包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除