自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 HBase 性能优化和最住实践

HBase 性能优化和最住实践ColumnFamily 的优化策略列族的名称必须是可打印字符;列族的名称和列的描述命名尽量简短,因为 HFile 中的每一行都会包含这些信息,过长的命名会浪费存储空间;不经常使用的数据分开设计和使用不同列族存储设置时分开设计;每张表不超过三个列族;列族允许数据分离,设计列族时,确保同时访问的数据尽量存储在同一个列族中,常用的信息放在同一个列族中;刷新 (Flush)...

2018-02-26 17:59:46 477

转载 工作流调研 oozie vs azkaban

 clark010 关注2016.03.19 08:58* 字数 1826 阅读 6662评论 1喜欢 11公司内现在已经有团队在使用Airflow,运维UI界面以及对开发的友好性上貌似都要好于Oozie,本文只针对14年的调研对比结果,有空会对比一下两个系统流程Java主流程代码,Shell/Python代码对主流程调用,完成控制逻辑QA需要分别针对Java主流程代码测试,并添加Python代码...

2018-02-26 10:04:17 736

转载 elasticsearch映射

前面讲到,无论是关系型数据库还是非关系型数据库,乃至elasticsearch这种事实上承担着一定储存作用的搜索引擎,数据类型都是非常重要而基础的概念。但elasticsearch与其它承担着数据存储的技术有着比较大的区别之一就是映射,和倒排索引。映射是定义如何存储和编制文档及其包含的字段的过程。例如,使用映射来定义:哪些字符串字段应被视为全文字段。哪些字段包含数字,日期或地理位置。文档中所有字段...

2018-02-12 15:37:23 207

转载 elasticsearch searchAPI 之 search template 查询模板

最近在公司又用到了elasticsearch,也用到了查询模板,顺便写篇文章记录一下查询模板的使用。以1个需求为例讲解es模板的使用:页面上某个按钮在一段时间内的点击次数统计,并且可以以小时,天,月为单位进行汇总,并且需要去重。创建索引,只定义3个字段,user_id, user_name和create_time:-POST /$ES/event_index{ "mappings": {...

2018-02-12 10:32:04 1730

转载 查询时权重提升

编辑在 语句优先级(Prioritizing Clauses) 中,我们解释过如何在搜索时使用 boost 参数让一个查询语句比其他语句更重要。 例如:GET /_search{ "query": { "bool": { "should": [ { "match": { "title": { ...

2018-02-12 10:18:45 472

转载 ElasticSearch复合数据类型——数组,对象和嵌套

在ElasticSearch中,使用JSON结构来存储数据,一个Key/Value对是JSON的一个字段,而Value可以是基础数据类型,也可以是数组,文档(也叫对象),或文档数组,因此,每个JSON文档都内在地具有层次结构。复合数据类型是指数组类型,对象类型和嵌套类型,各个类型的特点分别是:数组字段是指一个字段有多个值,每个值都是该数组字段的一个元素;元素的类型可以是基础类型,也可以是文档类型;...

2018-02-08 17:12:14 1718

转载 Elasticsearch使用rescore重打分机制

1、match和match_phrase(proximity match)的区别match --》只要简单的匹配到了一个term,就可以理解将term对应的doc作为结果返回,扫描倒排索引,扫描到了就OK。match_phrase --》首先扫描到所有term的doc list;找到包含所有term的doc list;然后对每个doc都计算每个term的position,是否符合指定的范围;slo...

2018-02-08 16:26:16 5425

转载 Elasticsearch - 短语匹配(match_phrase)以及slop参数

短语匹配(Phrase Matching)就像用于全文搜索的的match查询一样,当你希望寻找邻近的单词时,match_phrase查询可以帮你达到目的。GET /my_index/my_type/_search{ "query": { "match_phrase": { "title": "quick brown fox" } ...

2018-02-08 16:03:01 937

转载 elasticsearch 过滤器

本章翻译自Elasticsearch官方指南的Filtering Queries and Aggregations一章。过滤查询以及聚合A natural extension to aggregation scoping is filtering. Because the aggregation operates in the context of the query scope, any fil...

2018-02-08 14:24:25 359

转载 ES doc_values介绍——本质是field value的列存储,做聚合分析用,ES默认开启,会占用存储空间(列存储压缩技巧,除公共除数或者同时减去最小数,字符串压缩的话,直接去重后用数字ID压

大家知道,搜索引擎的基本数据结构是反向索引,也就是为每个关键词建立了到文档的映射,然后所有的关键词是一个有序列表。搜索的时候,只要先从有序列表中匹配到关键词,就能搜索到包含该关键词的所有文档,反向索引的数据结构对于关键词搜索的场景是非常高效的。但聚合分析和搜索有很大的不同。典型的场景,比如计算某个文档中每个关键词的出现次数,反向索引就无能为力了,需要先扫描整个关键词映射表,才能找到该文档包含的所有...

2018-02-08 11:13:18 897

原创 spark中直接使用es的client

因为jar冲突,es client使用的httpjar被忽略,所以导致报错,所以使用以下命令确保用户的jar被优先加载。spark-submit --class SparkTest --master yarn  --deploy-mode client \--driver-cores 1 \--driver-memory 1G \--num-executors 1 \--exe

2018-02-06 15:16:54 835

原创 cdh博客系列

博客1:http://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247487429&idx=1&sn=b29e28937ef2cbbd3360f1ef4183a1be&chksm=ec2adfccdb5d56dafd3a3671aa5a7436ac2642b351ee7470d8a33235e2c04e14397bd8c7206b&mpsha

2018-02-05 10:43:27 194

转载 如何在CDH中启用Spark Thrift

1.文档编写目的CDH 自带的Spark 不支持Spark Thrift,因为spark-assembly jar中缺少Hive thrift相关的依赖包,导致CDH用户没法使用JDBC的方式连接Spark并使用Spark SQL。Apache Spark 1.6之后spark-assembly jar 中包含了 Hive 相关的依赖包了,而恰好 CDH5.13 的

2018-02-05 09:59:09 1643

转载 Elasticsearch嵌套式对象Nested分析

原文请参考: https://www.felayman.com/articles/2017/11/10/1510292946325.htmlnested结构是Elasticsearch提供关系存储的一种特殊的结构,是NOSQL的一种高级特性,在传统的关系型sql中,很难做到一行记录中存储某个实体以及附属的内容,比如某个用户下评论数据,或某个订单下的所有商品等这种关系比较强的内容。当然传统s

2018-02-02 11:23:33 800

转载 elasticsearch mapping 学习(parent-child)

ES 父子文档查询父子文档的特点1. 父/子文档是完全独立的。2. 父文档更新不会影响子文档。3. 子文档更新不会影响父文档或者其它子文档。父子文档的映射与索引1. 父子关系 type 的建立必须在索引新建或 update-mapping 时候确定好PUT /company{ "mappings": { "b

2018-02-02 10:22:57 1561

转载 Elasticsearch——使用学习2(API常用参数)

Elasticsearch——Rest API中的常用用法本篇翻译的是Elasticsearch官方文档中的一些技巧,是使用Elasticsearch必不可少的必备知识,并且适用于所有的Rest Api。返回数据格式化当在Rest请求后面添加?pretty时,结果会以Json格式化的方式显示。另外,如果添加?format=yaml结果会以树的形式显示,默认都

2018-02-02 09:49:59 250

转载 Elasticsearch——使用学习1(API约定,多个索引支持)

在Elasticsearch中,一般的查询都支持多索引。只有文档API或者别名等不支持多索引操作,因此本篇就翻译一下多索引相关的内容。首先,先插入几条数据:$ curl -XPOST localhost:9200/test1/test/1 -d '{"name":"test1"}'$ curl -XPOST localhost:9200/test1/test/2 -d '{"na

2018-02-02 09:32:26 173

原创 cdh添加第三方服务

以自己写的一个java程序为例1. 制作parcel包1.1 我的程序结构如下:[root@cdh3 nameaddress-1.0]# cd nameaddress/[root@cdh3 nameaddress]# ll总用量 9420drwxr-xr-x 2 root root 4096 2月 1 16:54 bindrwxr-xr-x 2 root root

2018-02-01 18:23:12 1904 3

转载 Elasticsearch 动态映射——自动检测

ES中有一个非常重要的特性——动态映射,即索引文档前不需要创建索引、类型等信息,在索引的同时会自动完成索引、类型、映射的创建。那么什么是映射呢?映射就是描述字段的类型、如何进行分析、如何进行索引等内容。本篇就着重讲述下,ES中映射的自动检测特性。更多内容参考:Elastisearch知识总结字段自动检测在某个字段第一次出现时,如果之前没有定义过映射,ES会自

2018-02-01 10:48:56 455

转载 elasticsearch bool组合查询

# bool组合查询# filter:过滤,不参与打分# must:如果有多个条件,这些条件都必须满足 and与# should:如果有多个条件,满足一个或多个即可 or或# must_not:和must相反,必须都不满足条件才可以匹配到 !非布尔查询与匹配其他查询的布尔组合的文档相匹配的查询。bool查询映射到Lucene BooleanQuery。它是使用一个或多个布尔子句构

2018-02-01 10:04:39 4874

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除