![](https://img-blog.csdnimg.cn/20200102101106157.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
【 大数据生态 】
大数据生态
少年阿峣_从零单排
马刺队更衣室里一句话:当一切看起来无可挽回之时,我跑去看石匠重复捶击他面前的岩石一百次,而那块石头连一个裂缝都没有露出来。接下来的第一百零一次捶击之时,此石一分为二。不是因为这一次捶击,而是因为你的始终如一。
展开
-
ElasticSearch6.X Join(父子查询)深入详解
0、ES6.X 一对多、多对多的数据该如何存储和实现呢?引出问题:“某头条新闻APP”新闻内容和新闻评论是1对多的关系?在ES6.X该如何存储、如何进行高效检索、聚合操作呢?相信阅读本文,你就能得到答案!1、ES6.X 新类型Join 产生背景 Mysql中多表关联,我们可以通过left join 或者Join等实现; ES5.X版本,借助父子文档实现多表关联,类似数据库中Join的功能;实现的核心是借助于ES5.X支持1个索引(index)下多个类型(type)。转载 2020-07-30 16:38:43 · 1300 阅读 · 0 评论 -
ElasticSearch 7.X 重要功能总结
7.0.0重要功能自适应分片访问选择在6.1中已加入这个功能,但是默认是关闭的,在7.0中开始默认开启。若有两个节点,且其中一个节点上有一个索引的主分片,另一个节点上有同一个索引的副本分片,在6.X中关闭此特性时,不管每个节点状态如何,是否在做耗时操作,如GC等,每次请求过来时,都会通过轮询的方式访问两个分片其中之一;而在7.X开启后,ES会统计每次请求耗时,根据每个节点访问响应的耗时长度,对每个节点的访问频次进行自动调整。"search idle"状态下的分片不进行自动refreshEla转载 2020-07-01 14:54:33 · 2631 阅读 · 0 评论 -
kafka入门:简介、架构原理、配置安装等
kafka入门简介、架构原理、配置及安装、监控等1、kafka的介绍2、kafka与传统消息队列的区别3、kafka的架构模型4、kafka的安装与命令行使用5、kafka的API6、kafka的分区(共4种)7、kafka的配置文件说明8、flume与kafka的整合9、kafka如何保证数据的不丢失10、kafkaManager监控工具的安装与使用(可视化界面)11、kafka为什么这么快原创 2019-07-15 15:27:11 · 242 阅读 · 0 评论 -
docker安装kafka
Kafka安装下载wurstmeister/kafka源码git clone https://github.com/wurstmeister/kafka-docker.git修改docker-compose-single-broker.yml文件version: '2'services: zookeeper: image: wurstmeister/zookeepe...原创 2018-07-02 10:02:31 · 604 阅读 · 0 评论 -
docker安装搭建kylin
1.拉取docker镜像(注意:这个kylin是0.7.2版本的,集成了ambari1.7和hdp Hadoop2.2,镜像大约6G) docker pull sequenceiq/kylin:0.7.2 拉取完成镜像,通过 docker iamges 查看sequenceiq/kylin:0.7.2镜像是否成功 2.启动kylin镜像1) 首先执行以下docker命令...原创 2018-09-03 17:35:15 · 2687 阅读 · 0 评论 -
Apache Kylin 介绍
Apache Kylin 概览 Apache Kylin 是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin是什么?- 可扩展超快OLAP引擎: Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟...原创 2018-05-30 17:12:18 · 368 阅读 · 0 评论 -
Flink架构、原理与部署测试
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全不相同的:流处理一般需要支持低延迟、Exactly-once保证,而批...转载 2018-05-30 15:17:05 · 186 阅读 · 0 评论 -
Oozie简介和运行实例
一、oozie简介Oozie是一个管理 Apache Hadoop 作业的工作流调度系统。官网连接:http://oozie.apache.org/1、安装:一是源生的,需要自己编译;(本文暂时不介绍具体的安装步骤,可以参考https://blog.csdn.net/lucylove3943/article/details/80673962)二是CDH的包来安装,和源生类似;...原创 2019-08-26 09:56:45 · 2271 阅读 · 0 评论 -
开源离线同步工具—DataX3.0介绍
阿里云开源离线同步工具DataX3.0介绍一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输...转载 2018-05-16 10:41:23 · 2200 阅读 · 0 评论 -
Hadoop的各个Web界面的地址和接口
1、HDFS页面:500702、YARN的管理界面:80883、HistoryServer的管理界面:198884、Zookeeper的服务端口号:21815、Mysql的服务端口号:33066、Hive.server1=100007、Kafka的服务端口号:90928、azkaban界面:84439、Hbase界面:16010,6001010、Spark的界面...转载 2019-08-26 16:39:11 · 1265 阅读 · 0 评论 -
hdfs shell操作
在客户端输入Hadoop fs,可以查看所有的,hadoop shell# -help [cmd] //显示命令的帮助信息,如: hadoop fs -help ls# -ls(r) <path> //显示当前目录下所有文件,path是hadoop下的路径,如:/shikun/file# -du(s) <path> //显示目录中所有文件大小...原创 2018-07-23 13:50:39 · 144 阅读 · 0 评论 -
docker安装hue
docker安装hue4.1 获取hue镜像执行 sudo docker pull gethue/hue:latest注:出现docker pull Client.Timeout exceeded while awaitin的错误,多半是与docker hub的网络有问题。替换为国内的镜像源4.2 编译镜像(可选步骤,可以直接使用pull镜像,该步骤是自己build镜像)进入到pull的镜像所在目...原创 2018-07-02 10:57:37 · 1757 阅读 · 0 评论 -
HUE—大数据web管理器
HUEHue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。HUE官方地址http://gethue.com/默认基于轻量级sqlite数据库管理会话数据,用户认证和授权,可以自定义为...转载 2018-06-15 15:24:25 · 43038 阅读 · 0 评论 -
StreamSets快速安装与介绍
1、介绍:1.1、介绍: StreamSets数据操作平台是唯一旨在简化如何构建,执行和操作企业数据流的平台。构建在开源核心上,开发人员可以轻松构建批处理和流式数据流,而且代码少,而运营商使用云本地产品将数十或数百个数据流聚合到拓扑中,并通过实时可见性和性能控制集中管理。 其对数据流采用pipeline方式进行处理,源端数据可以来自多个组件,kafka,direct...原创 2018-08-25 12:10:54 · 3380 阅读 · 6 评论 -
Calcite 原理解析
Apache Calcite 是独立于存储与执行的SQL解析、优化引擎,广泛应用于各种离线、搜索、实时查询引擎,如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化,解析calcite优化引擎的实现原理。Calcite架构 Calcite架构图如下,其中Operator Expressions 是查询树在calcite中的表示,可以直接通...转载 2019-09-29 19:30:43 · 2053 阅读 · 0 评论 -
Strom架构和原理
Storm 是一个分布式的,可靠的,容错的数据流处理系统。下面我将分别从storm的整体架构以及部分原理进行讲解。一、基本的概念storm中服务器节点分为主节点和从节点,Nimbus为主节点和Supervisor为从节点。以及若干组件构成。下面为对一些术语进行简单的介绍:Nimbus:主节点,是一个调度中心,负责分发任务Supervisor:从节点,任务执行的地方Worker:...转载 2019-09-02 09:35:27 · 6569 阅读 · 0 评论 -
Spark高频面试点经典总结
一、弹性分布式数据集(RDD)1、RDD介绍简介:(存放数据的集合,数据是分布式存储的,可以保存在内存或磁盘中。是spark中最基本的数据抽象)RDD(Resilient Distributed Dataset)弹性分布式数据集。Resilient: 弹性的(可保存在内存或磁盘)Distributed:数据是分布式存储的,便于分布式计算Dataset: 一个集合,存放...原创 2019-04-30 15:46:43 · 838 阅读 · 0 评论 -
Spark2.X 集群安装(原生版详细)
Spark集群安装搭建最简单的三台主机的集群。hadoop001 Master hadoop002 Workerhadoop003 Worker详细步骤如下。1.下载spark安装包 下载地址spark官网:http://spark.apache.org/downloads.htmlspark-2.0.2-bin-hadoop2.7版本. 2.规划安装目录/opt/soft...原创 2018-06-02 14:26:08 · 834 阅读 · 0 评论 -
ETL工具Kettle
转载自 https://www.cnblogs.com/SunHuaJ/p/7593239.htmlETL是EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation...转载 2018-06-13 10:10:57 · 1251 阅读 · 0 评论 -
YARN设计思路(hadoop1.0与hadoop2.x)
原创 2019-09-29 19:40:54 · 211 阅读 · 0 评论 -
【解决】ClickHouse union all 错误386 There is no supertype for types UInt64(类型A), Int64(类型B)
适用范围:There is no supertype for types A, B问题复现: 在用union all,将两个相同字段名称的查询结果相连时报错。SQL语句:select count(distinct user) as "value", name from table1union allselect sum(userTotal) as "value" , name from table2报错日志:SQL 错误 [386]: ClickHouse excep..原创 2020-05-14 09:27:13 · 14444 阅读 · 0 评论 -
hive常用函数和运算
hive 常用运算第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RL...原创 2019-09-01 20:09:18 · 895 阅读 · 0 评论 -
Hive sql常用语句整理
----------------------------------------------------------------------------------------------------数据库相关操作 Hive配置单元包含一个名为 default 默认的数据库. create database [if not exists] <database na...原创 2019-09-01 20:05:19 · 498 阅读 · 0 评论 -
Hive 之 元数据表结构详解
元数据是基础,这篇文章值得一读。本文介绍Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。1、存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。 VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 ...转载 2019-10-08 16:26:03 · 1029 阅读 · 0 评论 -
ElasticSearch调优指南
作者:Ghost Stories原文:http://wangnan.tech/post/elasticsearch-how-to/ES 发布时带有的默认值,可为 ES 的开箱即用带来很好的体验。全文搜索、高亮、聚合、索引文档 等功能无需用户修改即可使用,当你更清楚的知道你想如何使用 ES 后,你可以作很多的优化以提高你的用例的性能,下面的内容告诉你 你应该/不应该 修改哪些配置。第一部...转载 2019-09-18 15:46:17 · 252 阅读 · 0 评论 -
ElasticSearch批量删除数据
2.x版本一、此版本批量删除数据需要安装插件,官方的删除插件在每一个节点上安装插件:sudo bin/plugin install delete-by-query重启elasticsearch二、DELETE /twitter/tweet/_query?q=user:kimchy或者DELETE /twitter/tweet/_query{ "query": { ...原创 2019-02-15 17:45:35 · 9709 阅读 · 0 评论 -
ElasticSearch集成IK分词器
elasticsearch集成ik分词器一.下载编译从地址https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch中文分词器这里默认的是master的 但是master的项目需要用gradle编译,这里选择1.8.0版本。而且从下面的介绍可以知道1.8.0正好对应elasticsearch的2.2.0版本...原创 2019-02-15 17:43:46 · 340 阅读 · 0 评论 -
Elasticsearch索引文档【word,pdf等】
安装es5.x版本需要把jvm设置调大,否则起不起来sudo sysctl -w vm.max_map_count=2621441.elasticsearch索引文件需要一个插件 es版本 插件名 参考文档 es5.0之前 mapper-attachments h...原创 2019-02-15 16:42:30 · 8170 阅读 · 0 评论 -
elasticsearch-dump数据迁移工具(docker版)
本文主要介绍最简单版——Docker来安装和使用elasticsearch-dump1、Docker拉取镜像docker pull taskrabbit/elasticsearch-dump2、运用docker run --rm -ti taskrabbit/elasticsearch-dump 您需要将文件存储目录挂载-v <your dumps dir>:...原创 2019-01-08 17:53:07 · 3414 阅读 · 0 评论 -
ElasticSearch-head添加mapping
elasticsearch-head是es的一个可视化插件,很方便,在上面可以执行很多操作。 下面就来说明添加mapping的——简单三部曲。1、打开es-head,选择复合查询。 2、将Mapping增加到哪个索引上,选择GET,去掉_search 3、把mapping加进去,验证JSON ,无误后,点击 图左下方的提交请求按钮 返回true即成功,然后去...原创 2018-11-06 17:52:08 · 4363 阅读 · 0 评论 -
ElasticSearch java实现星期小时热力图【Date histogram】
版权声明:https://blog.csdn.net/qq_18769269/article/details/82746259需求: 选定一段时间,统计该段时间内,星期一到星期天中每个小时中文章发布数量,做周-时热点统计,效果如下: Date histogram时间聚合介绍: 按时间聚合,想到了ES查询中的Date histogr...原创 2018-09-17 18:11:07 · 3781 阅读 · 0 评论 -
ElasticSearch—Java批量导入导出
网上找了很多,我的es是2.3.5版本,网上的客户端最少都是5.x版本,所以没有能用的。自己整合了一下 2.3.5版本的。 pom文件:<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch&l...原创 2018-07-28 11:47:33 · 5558 阅读 · 2 评论 -
Kibana介绍、安装和使用
ES之Kibana下面就Kibana对ES的查询监控作介绍,就是常提到的大数据日志处理组件ELK里的K。 什么是Kibana?现引用园友的一段对此的介绍,个人觉得比较全。 Kibana是一个针对Elasticsearch的开源分析及可视化平台,用来搜索、查看交互存储在Elasticsearch索引中的数据。使用Kibana,可以通过各种图表进行高级数据分析及展示。 Kibana让海量数据更容...转载 2018-06-28 15:20:12 · 176766 阅读 · 12 评论 -
支持SQL Elasticsearch6.3 新特性概览
1、Elasticsearch6.3 特性概览1.1、支持Sql像操作Mysql一样使用Elasticsearch,缩减DSL的学习成本,更多人爱上ES的特性。这样我们就可以减少 DSL 的学习成本,这个 SQL 模块是属于 X-Pack 的一部分。POST /_xpack/sql?format=txt{ "query": "SELECT * FROM library WHERE rel...转载 2018-06-22 18:19:54 · 3211 阅读 · 0 评论 -
Elasticsearch之Date Histogram聚合
Elasticsearch聚合 之 Date Histogram聚合Elasticsearch的聚合主要分成两大类:metric和bucket。本篇还是来介绍Bucket聚合中的常用聚合——date histogram.参考:官方文档用法Date histogram的用法与histogram差不多,只不过区间上支持了日期的表达式。{"aggs":{ "articles_over_time...原创 2018-06-22 14:11:53 · 3335 阅读 · 0 评论 -
ElasticSearch 索引查询—详细介绍
我们通常用catAPI:https://www.elastic.co/guide/en/elasticsearch/reference/current/cat.html 检测集群是否健康。 确保9200端口号可用: curl 'localhost:9200/_cat/health?v' 绿色表示一切正常, 黄色表示所有的数据可用但是部分副本还没有分配,红色表示部分数据因为某些原因不可用. ...转载 2018-06-21 19:22:25 · 12987 阅读 · 0 评论 -
【解决】Dberver 连接 ClickHouse SQL 错误 [164]:Cannot modify max_result_rows setting in readonly mode
问题描述在只读模式下,配置好ClickHouse连接,然后看似一切都很美好,可惜查询时候报错!!找问题找问题,首先在原生的命令行执行相同的操作是没问题的,所以问题定位在Dberver。然后看报错日志,Cannot modify 'max_result_rows' setting in readonly mode翻译过来就是Dberver自己修改max_result_rows这一配置,但是在只读模式下修改失败。那么,我们可以尝试,不让Dberver自己修改max_result_ro原创 2020-06-23 10:29:12 · 7630 阅读 · 0 评论 -
Apache Flink 1.10.0 最新发布,年度最大规模版本升级!
Apache Flink 社区迎来了激动人心的两位数位版本号,Flink 1.10.0 正式宣告发布!作为 Flink 社区迄今为止规模最大的一次版本升级,Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现,包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化...转载 2020-02-13 09:58:33 · 1987 阅读 · 0 评论