2018年02月_丹江怒潮

转载 HBase 性能优化和最住实践

HBase 性能优化和最住实践ColumnFamily 的优化策略列族的名称必须是可打印字符；列族的名称和列的描述命名尽量简短，因为 HFile 中的每一行都会包含这些信息，过长的命名会浪费存储空间；不经常使用的数据分开设计和使用不同列族存储设置时分开设计；每张表不超过三个列族；列族允许数据分离，设计列族时，确保同时访问的数据尽量存储在同一个列族中，常用的信息放在同一个列族中；刷新 (Flush)...

2018-02-26 17:59:46 477

转载工作流调研 oozie vs azkaban

clark010 关注2016.03.19 08:58* 字数 1826 阅读 6662评论 1喜欢 11公司内现在已经有团队在使用Airflow，运维UI界面以及对开发的友好性上貌似都要好于Oozie，本文只针对14年的调研对比结果，有空会对比一下两个系统流程Java主流程代码，Shell/Python代码对主流程调用，完成控制逻辑QA需要分别针对Java主流程代码测试，并添加Python代码...

2018-02-26 10:04:17 736

转载 elasticsearch映射

前面讲到，无论是关系型数据库还是非关系型数据库，乃至elasticsearch这种事实上承担着一定储存作用的搜索引擎，数据类型都是非常重要而基础的概念。但elasticsearch与其它承担着数据存储的技术有着比较大的区别之一就是映射，和倒排索引。映射是定义如何存储和编制文档及其包含的字段的过程。例如，使用映射来定义：哪些字符串字段应被视为全文字段。哪些字段包含数字，日期或地理位置。文档中所有字段...

2018-02-12 15:37:23 207

转载 elasticsearch searchAPI 之 search template 查询模板

最近在公司又用到了elasticsearch，也用到了查询模板，顺便写篇文章记录一下查询模板的使用。以1个需求为例讲解es模板的使用：页面上某个按钮在一段时间内的点击次数统计，并且可以以小时，天，月为单位进行汇总，并且需要去重。创建索引，只定义3个字段，user_id, user_name和create_time:-POST /$ES/event_index{ "mappings": {...

2018-02-12 10:32:04 1730

转载查询时权重提升

编辑在语句优先级（Prioritizing Clauses）中，我们解释过如何在搜索时使用 boost 参数让一个查询语句比其他语句更重要。例如：GET /_search{ "query": { "bool": { "should": [ { "match": { "title": { ...

2018-02-12 10:18:45 472

转载 ElasticSearch复合数据类型——数组，对象和嵌套

在ElasticSearch中，使用JSON结构来存储数据，一个Key/Value对是JSON的一个字段，而Value可以是基础数据类型，也可以是数组，文档（也叫对象），或文档数组，因此，每个JSON文档都内在地具有层次结构。复合数据类型是指数组类型，对象类型和嵌套类型，各个类型的特点分别是：数组字段是指一个字段有多个值，每个值都是该数组字段的一个元素；元素的类型可以是基础类型，也可以是文档类型；...

2018-02-08 17:12:14 1718

转载 Elasticsearch使用rescore重打分机制

1、match和match_phrase（proximity match）的区别match --》只要简单的匹配到了一个term，就可以理解将term对应的doc作为结果返回，扫描倒排索引，扫描到了就OK。match_phrase --》首先扫描到所有term的doc list；找到包含所有term的doc list；然后对每个doc都计算每个term的position，是否符合指定的范围；slo...

2018-02-08 16:26:16 5425

转载 Elasticsearch - 短语匹配(match_phrase)以及slop参数

短语匹配(Phrase Matching)就像用于全文搜索的的match查询一样，当你希望寻找邻近的单词时，match_phrase查询可以帮你达到目的。GET /my_index/my_type/_search{ "query": { "match_phrase": { "title": "quick brown fox" } ...

2018-02-08 16:03:01 937

转载 elasticsearch 过滤器

本章翻译自Elasticsearch官方指南的Filtering Queries and Aggregations一章。过滤查询以及聚合A natural extension to aggregation scoping is filtering. Because the aggregation operates in the context of the query scope, any fil...

2018-02-08 14:24:25 359

转载 ES doc_values介绍——本质是field value的列存储，做聚合分析用，ES默认开启，会占用存储空间（列存储压缩技巧，除公共除数或者同时减去最小数，字符串压缩的话，直接去重后用数字ID压

大家知道，搜索引擎的基本数据结构是反向索引，也就是为每个关键词建立了到文档的映射，然后所有的关键词是一个有序列表。搜索的时候，只要先从有序列表中匹配到关键词，就能搜索到包含该关键词的所有文档，反向索引的数据结构对于关键词搜索的场景是非常高效的。但聚合分析和搜索有很大的不同。典型的场景，比如计算某个文档中每个关键词的出现次数，反向索引就无能为力了，需要先扫描整个关键词映射表，才能找到该文档包含的所有...

2018-02-08 11:13:18 897

原创 spark中直接使用es的client

因为jar冲突，es client使用的httpjar被忽略，所以导致报错，所以使用以下命令确保用户的jar被优先加载。spark-submit --class SparkTest --master yarn --deploy-mode client \--driver-cores 1 \--driver-memory 1G \--num-executors 1 \--exe

2018-02-06 15:16:54 835

原创 cdh博客系列

博客1：http://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247487429&idx=1&sn=b29e28937ef2cbbd3360f1ef4183a1be&chksm=ec2adfccdb5d56dafd3a3671aa5a7436ac2642b351ee7470d8a33235e2c04e14397bd8c7206b&mpsha

2018-02-05 10:43:27 194

转载如何在CDH中启用Spark Thrift

1.文档编写目的CDH 自带的Spark 不支持Spark Thrift，因为spark-assembly jar中缺少Hive thrift相关的依赖包，导致CDH用户没法使用JDBC的方式连接Spark并使用Spark SQL。Apache Spark 1.6之后spark-assembly jar 中包含了 Hive 相关的依赖包了，而恰好 CDH5.13 的

2018-02-05 09:59:09 1643

转载 Elasticsearch嵌套式对象Nested分析

原文请参考: https://www.felayman.com/articles/2017/11/10/1510292946325.htmlnested结构是Elasticsearch提供关系存储的一种特殊的结构,是NOSQL的一种高级特性,在传统的关系型sql中,很难做到一行记录中存储某个实体以及附属的内容，比如某个用户下评论数据，或某个订单下的所有商品等这种关系比较强的内容。当然传统s

2018-02-02 11:23:33 800

转载 elasticsearch mapping 学习（parent-child）

ES 父子文档查询父子文档的特点1. 父/子文档是完全独立的。2. 父文档更新不会影响子文档。3. 子文档更新不会影响父文档或者其它子文档。父子文档的映射与索引1. 父子关系 type 的建立必须在索引新建或 update-mapping 时候确定好PUT /company{ "mappings": { "b

2018-02-02 10:22:57 1561

转载 Elasticsearch——使用学习2（API常用参数）

Elasticsearch——Rest API中的常用用法本篇翻译的是Elasticsearch官方文档中的一些技巧，是使用Elasticsearch必不可少的必备知识，并且适用于所有的Rest Api。返回数据格式化当在Rest请求后面添加?pretty时，结果会以Json格式化的方式显示。另外，如果添加?format=yaml结果会以树的形式显示，默认都

2018-02-02 09:49:59 250

转载 Elasticsearch——使用学习1（API约定，多个索引支持）

在Elasticsearch中，一般的查询都支持多索引。只有文档API或者别名等不支持多索引操作，因此本篇就翻译一下多索引相关的内容。首先，先插入几条数据：$ curl -XPOST localhost:9200/test1/test/1 -d '{"name":"test1"}'$ curl -XPOST localhost:9200/test1/test/2 -d '{"na

2018-02-02 09:32:26 173

原创 cdh添加第三方服务

以自己写的一个java程序为例1. 制作parcel包1.1 我的程序结构如下：[root@cdh3 nameaddress-1.0]# cd nameaddress/[root@cdh3 nameaddress]# ll总用量 9420drwxr-xr-x 2 root root 4096 2月 1 16:54 bindrwxr-xr-x 2 root root

2018-02-01 18:23:12 1904 3

转载 Elasticsearch 动态映射——自动检测

ES中有一个非常重要的特性——动态映射，即索引文档前不需要创建索引、类型等信息，在索引的同时会自动完成索引、类型、映射的创建。那么什么是映射呢？映射就是描述字段的类型、如何进行分析、如何进行索引等内容。本篇就着重讲述下，ES中映射的自动检测特性。更多内容参考：Elastisearch知识总结字段自动检测在某个字段第一次出现时，如果之前没有定义过映射，ES会自

2018-02-01 10:48:56 455

转载 elasticsearch bool组合查询

# bool组合查询# filter:过滤，不参与打分# must:如果有多个条件，这些条件都必须满足 and与# should:如果有多个条件，满足一个或多个即可 or或# must_not:和must相反，必须都不满足条件才可以匹配到！非布尔查询与匹配其他查询的布尔组合的文档相匹配的查询。bool查询映射到Lucene BooleanQuery。它是使用一个或多个布尔子句构

2018-02-01 10:04:39 4874

qq_24365213的博客