2018年11月_Xlucas

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Flink部署-standalone模式

安装环境信息flink-1.6.2-bin-hadoop27-scala_2.11.tgzhadoop-2.7.5java 1.8zookeeper 3.4.6os:centos 6.41、下载直接去flink的社区下载就可以了。http://flink.apache.org/downloads.html2、解压 tar -zxvf flink-1.6.2-bin-hadoop...

2018-11-30 00:07:41 5333

ES中一个搜索请求是怎么流转的1、搜索请求发送到某一个coordinate node,构建一个priority queue，长度以paging操作from和size为准，默认为102、coordinate node将请求转发到所有shard，每个shard本地搜索，并构建一个本地priority queue3、各个shard将自己的priority queue返回给coordinate no...

2018-11-18 22:48:18 2456

原创 Apache Flink介绍

什么是FlinkFlink 它可以处理有界的数据集、也可以处理无界的数据集、它可以流式的处理数据、也可以批量的处理数据。所谓的无穷数据集就是我们日常中所说的实时数据，比如金融市场的实时交易记录，web的实时访问记录，所谓的有界数据集就是一些有限不会改变的数据集合，所以flink数据运算模型有流式和批处理。flink的官网https://flink.apache.orggithub地址ht...

2018-11-16 23:53:07 359

原创 ES中scroll技术

如果一次性要查询出一大批的数据，那么性能会很差，此时一般采用scoll滚动查询，一批一批的查询，直到所有的数据查询完成使用scoll滚动搜索，可以先搜索一批数据，然后下次再搜索一批数据，以此类推，直到搜索出全部的数据来scoll搜索会在第一次搜索的时候，保存一个当时的视图快照，之后只会基于该旧的视图快照提供数据搜索，如果这个期间数据变更，是不会让用户看到的采用基于_doc进行排序的方式，性能...

2018-11-16 00:41:38 8349

原创 ES分词算法

算法介绍1、relevance score算法，就是计算出，一个索引中的文本，与搜索文本，他们之间的关联匹配程度2、ES使用的是，term frequency/inverse document frequency算法，简称TF/IDF算法3、term frequency：搜索文本中的各个词条在field文本中出现了多少次，出现次数越多，就越相关4、inverse document freq...

2018-11-15 23:34:07 3932

原创 ES字符串排序问题

如果对一个text field进行排序，结果往往不准确，因为分词后是多个单词，再排序就不是我们想要的结果了通常解决方案是，将一个text field建立两次索引，一个分词，用来进行搜索；一个不分词，用来进行排序创建索引在ES6中没有String类型了，如果是不能被检索需要定义为keywordPUT /web5{ "mappings": { "article": { ...

2018-11-14 00:13:12 7622 2

原创 ES的查询接口

1、什么是query DSLGET /_search{ "query": { "match_all": {} }}query 中有哪些query_name全部查询出来 match allGET /web/info/_search --查询所有的文档{ "query": { "match_all": {} }}...

2018-11-11 00:38:51 5794

原创 ES中mapping讲解

注意：以下都是基于ES6操作的准备数据PUT /web/info/1{ "post_date": "2018-11-01", "title": "the first info", "content": "the first info in this web", "author_id": "xlucas"}PUT /web

2018-11-08 22:16:08 6759

原创 ES中search中参数讲解

1、搜索出来的一大堆参数，每个参数具体是什么意思took：表示整个搜索请求花费了多少毫秒hits.total：本次搜索，返回了几条结果hits.max_score：本次搜索的所有结果中，最大的相关度分数是多少。每一条document对于search的相关度，越相关，_score分数越大，排位越靠前hits.hits：默认查询出前10条数据，完整数据，_score降序排序shards：sh...

2018-11-07 23:07:06 5700

原创 ES中bulk的json的原理

前面我们讲解到ES在做批处理的时候，采用的多行json方式。这种有什么好处呢？1、bulk中的每个操作都可能要转发到不同的node的shard去执行2、如果采用比较良好的json数组格式（1）将json数组解析为JSONArray对象，这个时候，整个数据，就会在内存中出现一份一模一样的拷贝，一份数据是json文本，一份数据是JSONArray对象（2）解析json数组里的每个json，对每...

2018-11-05 00:50:26 946

原创 ES查询原理和timeout讲解

ES的查询过程1、客户端发送请求到任意一个node，成为coordinate node2、coordinate node对document进行路由，将请求转发到对应的node(primary或者replicanode上)上，此时使用round-robin随机轮询算法，在primary shard以及其所有的replica中随机选择一个，让读请求负载均衡3、接收请求的node返回documen...

2018-11-05 00:48:27 8618 8

原创 ES中document如何做写一致性

1、consistency ，one(primary shard)，all(all shard),quorum(default)        我们在发送任何一个增删改操作的时候，都可以带上一个consistency参数，指明我们想要的写一致性是什么     &nb

2018-11-04 00:34:17 447

selenium2.53包

此包包含了IE、google的驱动文件，是selenium2.53的软件，详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包，包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Xlucas的博客