2019年01月_-无妄-

11月 10月 09月 07月 06月 04月 03月 02月 01月

原创 2、Logstash 篇之插件详解

文章目录input插件详解及glob讲解input PluginInput Plugin – stdinInput Plugin-file理论实现源码：Input Plugin – glob匹配语法Input Plugin - kafkacodec插件详解Codec PluginCodec Plugin – multilinefilter插件简介及date插件讲解Filter PluginFilt...

2019-01-31 20:26:45 1985

原创 1、Logstash 篇之入门与运行机制

文章目录Logstash简述简介处理流程处理流程--Filter配置处理流程--Filter配置Grok示例入门及架构简介Codec-Input DecodingCodec-Output EncodingLife_of_an_Event具体流程queue简介线程简介相关配置配置简介logstash配置文件：logstash.yml常用配置项logstash命令行配置项两种配置使用场合多实例运行pi...

2019-01-31 15:40:30 550

转载 Eureka和Zookeeper的区别在哪？

1. CAP 理论在总结两者的区别之前，我们先来看一个 CAP 理论。什么叫 CAP 理论呢？CAP 理论是由 Eric Brewer 教授提出，是分布式系统中的一个重要的概念。具体如下：C（Consistency）：数据一致性。大家都知道，分布式系统中，数据会有副本。由于网络或者机器故障等因素，可能有些副本数据写入正确，有些却写入错误或者失败，这样就导致了数据的不一致了。而满足数据一致性规...

2019-01-28 11:08:21 221

原创 9 Elasticsearch 篇之集群调优建议

文章目录生产环境部署建议系统设置要到位ES设置尽量简介elasticsearch.yml中建议设定的基本参数关于JVM内存设定写性能优化ES写数据-refreshES写数据-translogES写数据-flush写性能优化写性能优化-refresh写性能优化-translog写性能优化-flush写性能优化-其他读性能优化读性能优化-数据建模如何设定shard数xpack监控功能介绍X-Pack ...

2019-01-24 09:34:20 651

原创 8 Elasticsearch 篇之数据建模

文章目录数据建模简介数据建模数据建模的过程数据建模的意义ES数据建模配置相关介绍Mapping字段的相关设置Mapping字段属性的设定流程是何种类型？是否需要检索是否需要排序和聚合分析是否需要另行存储？ES数据建模实例Nested_Object关联关系处理关联关系处理之Nested ObjectParent_Child关联关系处理之Parent/Childnested_vs_parent_chi...

2019-01-23 17:11:15 1189

原创 7 Elasticsearch 篇之聚合分析入门

文章目录聚合分析简介什么是聚合分析聚合分析-分类metric聚合分析Metric聚合分析-CardinalityMetric聚合分析-StatsMetric聚合分析-PercentileMetric聚合分析-Percentile RankMetric聚合分析-Top Hitsbucket聚合分析bucket聚合分析-Termsbucket聚合分析- Rangebucket聚合分析- Date Ra...

2019-01-23 15:37:38 1207

原创 6 Elasticsearch 篇之深入了解 Search 的运行机制

文章目录Query-Then-FetchSearch的运行机制-Query阶段Search的运行机制-Fetch阶段Search的运行机制-相关性算分问题sorting-doc-values-fielddataFileddata vs DocValuesdocvalue_fields分页与遍历-fromsize分页与遍历-scroll分页与遍历-search_afterQuery-Then-Fe...

2019-01-23 14:58:11 552

原创 5 Elasticsearch 篇之分布式特性介绍

文章目录分布式介绍及cerebroMaster Node创建一个索引Coordinating Node副本与分片提高系统的可用性副本增大系统容量分片集群状态Cluster Health故障转移文档分布式存储文档创建的流程文档读取的流程文档批量创建的流程文档批量读取的流程脑裂问题shard详解倒排索引的不可变更文档搜索实时性文档搜索实时性-refresh文档搜索实时性-translog文档搜索实时性...

2019-01-23 14:05:32 305

转载 Apache Kafka消息格式的演变(0.7.x~0.10.x)

对于一个成熟的消息中间件而言，消息格式不仅关系到功能维度的扩展，还牵涉到性能维度的优化。随着Kafka的迅猛发展，其消息格式也在不断的升级改进，从0.8.x版本开始到现在的1.1.x版本，Kafka的消息格式也经历了3个版本。本文这里主要来讲述Kafka的三个版本的消息格式的演变，文章偏长，建议先关注后鉴定。Kafka根据topic（主题）对消息进行分类，发布到Kafka集群的每条消息都需要指定...

2019-01-22 09:54:33 300

原创 4 Elasticsearch 篇之Search API 介绍

文章目录SearchAPI概览URISearch详解与演示Query String Syntax布尔操作符通配符查询QueryDSL简介Request Body Search字段类查询简介及match-queryMatch Query – 流程相关性算分TF/IDF模型BM25模型match-phrase-queryquery-string-queryterm-terms-queryrange-q...

2019-01-17 20:52:50 810

转载 Kafka创建Topic时如何将分区放置到不同的Broker中

熟悉 Kafka 的同学肯定知道，每个主题有多个分区，每个分区会存在多个副本，本文今天要讨论的是这些副本是怎么样放置在 Kafka 集群的 Broker 中的。大家可能在网上看过这方面的知识，网上对这方面的知识是千变一律，都是如下说明的：为了更好的做负载均衡，Kafka尽量将所有的Partition均匀分配到整个集群上。Kafka分配Replica的算法如下：将所有存活的N个Brokers...

2019-01-17 14:28:05 486

转载 HBase 入门之数据刷写(Memstore Flush)详细说明

接触过 HBase 的同学应该对 HBase 写数据的过程比较熟悉（不熟悉也没关系）。HBase 写数据（比如 put、delete）的时候，都是写 WAL（假设 WAL 没有被关闭），然后将数据写到一个称为 MemStore 的内存结构里面的，如下图：但是，MemStore 毕竟是内存里面的数据结构，写到这里面的数据最终还是需要持久化到磁盘的，生成 HFile。如下图：理解 MemSt...

2019-01-14 09:39:34 899

转载 Structured Streaming VS Flink

flink是标准的实时处理引擎，而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的，不过现在Spark Streaming已经非常稳定基本都没有更新了，然后重点移到spark sql和structured Streaming了。Flink作为一个很好用的实时处理框架，也支持批处理，不仅提供了API的形式，也可以写sql文本。这篇文章...

2019-01-14 09:22:29 679

原创 2 TensorFlow简介和开发环境搭建

什么是TensorFlowGoogle开源的基于数据流图的科学计算库,适合用于机器学习https://www.tensorflow.org/TensorFlow的含义：张量在图中流动TensorFlow基本架构：TensorFlow详细架构：TensorFlow大事记2015年11月9日: Google在Github上开源了TensorFlow2016年4月13日: Te...

2019-01-11 09:47:00 941

原创 1人工智能基础知识

文章目录人工智能什么是人工智能人工智能前景人工智能简史TensorFlow：Google开源的基于数据流图的科学计算库，适合用于机器学习。官网链接 http://www.tensorflow.org/TensorFlow的含义：张量在图中流动TensorFlow基本架构：TensorFlow详细架构：TensorFlow的特点：灵活性:只要可以将计算表示成数据流图,就可以使用...

2019-01-09 14:53:53 10426 1

转载为什么不建议在 HBase 中使用过多的列族

我们知道，一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述：A typical schema has between 1 and 3 column families per table. HBase tables should not be designed to mimic RDBMS tables. 以及 HBase currently...

2019-01-08 09:46:09 6538 1

原创 3 Elasticsearch 篇之Mapping 设置

文章目录mapping简介自定义 mappingcopy_to参数说明index参数说明index_options参数说明mapping文档说明数据类型dynamic-mapping简介dynamic日期与数字识别dynamic-template简介索引模板mapping简介·类似数据库中的表结构定义,主要作用如下:　　-定义Index下的字段名( Field Name )　　-定义字段的...

2019-01-03 20:21:28 1500 1

原创 2 Elasticsearch 篇之倒排索引与分词

文章目录书的目录与索引正排与倒排索引简介倒排索引详解分词介绍analyze_api自带分词器Standard AnalyzerSimple AnalyzerWhitespace AnalyzerStop AnalyzerKeyword AnalyzerPattern AnalyzerLanguage Analyzer中文分词自定义分词CharacterFilterTokenizerTokenFil...

2019-01-03 19:16:27 973

原创 1 ElasticSearch篇之入门 **

文章目录常用术语Document介绍Document MetaDataIndex介绍restapi介绍index_apidocument_api常用术语·文档Document　　-用户存储在es中的数据文档·索引 Index　　-由具有相同字段的文档列表组成·节点Node　　-一个Elasticsearch的运行实例,是集群的构成单元·集群Cluster　　-由一个或多个节点组成...

2019-01-03 16:18:03 451

转载 java面试题整理

转载自 http://youzhixueyuan.com”static”关键字是什么意思？Java中是否可以覆盖(override)一个private或者是static的方法？“static”关键字表明一个成员变量或者是成员方法可以在没有所属的类的实例变量的情况下被访问。Java中static方法不能被覆盖，因为方法覆盖是基于运行时动态绑定的，而static方法是编译时静态绑定的。sta...

2019-01-03 10:16:06 204

原创 Storm学习笔记（7）- DRPC **

文章目录RPC原理图解基于Hadoop的RPC实现Storm DRPC概述本地DRPC远程DRPC官方网站：http://storm.apache.org/releases/1.2.2/Distributed-RPC.htmlRPC原理图解基于Hadoop的RPC实现添加依赖<repositories>...

2019-01-02 14:35:02 502

原创 Storm学习笔记（6）- Stream Grouping概述 **

文章目录Shuffle groupingFieldGroupingAllGrouping定义topology 的一部分是为每个bolt 指定它应该接收哪些Stream作为输入。Stream Grouping定义了如何在bolt的任务之间划分该Stream。Storm中有8个内置的流分组，您可以通过实现 CustomStreamGrouping来实现自定义流分组:Shuffle group...

2019-01-02 10:26:43 377