大数据
文章平均质量分 91
乾坤瞬间
一花一世界,一树一菩提。谈笑一乾坤,安然一瞬间
展开
-
flink 窗口 核心部件 - WindowOprator 算子计算过程
文章目录windowsOprator1. StreamRecord(流记录)timestamp的理解2. 窗口 WindowwindowAssigner3.如何判断延迟4. 窗口状态保存全局窗口状态如何使用全量窗口?增量窗口状态如何使用增量窗口?总结5. trigger 判断是否可以继续执行triggerContexttrigger 状态定义(TriggerResult)TriggerResult 触发窗口计算的前提条件。trigger应用!!!6. 触发窗口计算看不到图的可以通过这个链接查看wind原创 2021-04-02 18:52:23 · 538 阅读 · 0 评论 -
netty篇 之基本概念和核心组件(一)
文章目录基本概念IO篇cpu与controller之间的交互方式perform IOIO中的四大基本概念的理解IO 模型演进BIO 模型分析BIO在tomcat上的模型图NIO 模型NIO在Tomcat中的模型图NIO中channel与buffer配套结合channel分类FileChannel实例FileChannel下的[零copy技术模型](https://segmentfault.com/a/1190000021448694)NIO中的buffer的直接内存UDP服务端的channel实现Serve原创 2020-08-04 12:42:46 · 483 阅读 · 0 评论 -
spark streaming2.4.0 任务启动源码剖析
文章目录官方案例StreamingContextDStreamGraphDStream调度篇输入流的注入与开启输出流的注入流动?官方案例首先以官方启动入手object SparkStreamingTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("aaa")....原创 2019-11-13 14:58:43 · 340 阅读 · 0 评论 -
spark2.4.0 sql dataframe向上补齐操作(含udaf操作)
文章目录方案一方案二思考方案一使用窗口函数以及index实现具体操作放大图查看方案二使用窗口函数的特性以及spark2.4.0 新的array特性进行结合具体操作放大图查看其中所指的窗口函数聚合函数(index索引) over(order by index rows between unbounded preceding and current row)表示针对每...原创 2019-11-04 11:44:50 · 1070 阅读 · 0 评论 -
spark sql 高阶函数介绍
文章目录背景transformtransform 嵌套执行(nest)existsaggregate 聚合背景An Introduction to Higher Order Functions in Spark SQLNested data types offer Apache Spark users powerful ways to manipulate structured data. ...原创 2019-11-04 11:14:22 · 927 阅读 · 0 评论 -
spark-submit 到底做了什么
文章目录本文的目的是提升linux shell脚本的功力,以及熟悉spark-submit提交的具体流程spark-sumbit*第一段背景知识综合案例解读第二段背景知识解读第三段背景知识解读总结语本文的目的是提升linux shell脚本的功力,以及熟悉spark-submit提交的具体流程spark-sumbit*#!/usr/bin/env bashif [ -z "${SPARK...原创 2019-10-09 21:58:30 · 783 阅读 · 0 评论 -
spark pom文件 胖廋包结合
这里写自定义目录标题背景pom.xml 以供参考背景平时会有同僚(尤其是新手),一直很疑惑,本地开发的spark应用都运行得好好的,一旦编译文件之后就通不过,可能会有出现各种坑,其中就是使用sdt方式很容易导致项目使用的scala版本与本地编译的版本起冲突这里使用maven-shade-plugin 用来编译同时会生成两个包其中 feature-1.0-SNAPSHOT.jar 为胖包...原创 2019-09-27 13:54:04 · 344 阅读 · 0 评论 -
时间戳范围内正则表达式 生成器 解决方案
需求说明如何求出一个正则表达式,表示在 1324736000 到 1546272000之间的数例如15423232231这个根据正则表达式能够识别出来为true实际应用这个需求是因为由于公司内部rowkey的设计导致的,rowkey为 id+timestampe如果想对整个表中的指定1324736000 到 1546272000范围内的数据进行聚合操作其中一个解决方案是用row...原创 2019-08-27 22:21:25 · 1314 阅读 · 6 评论 -
elasticsearch7.1.0 ik中文分词快速搭建本地测试环境(docker版本)
docker nameversionelasticsearch7.1.0kibana7.1.0 > git pull https://github.com/medcl/elasticsearch-analysis-ik.git > cd elasticsearch-analysis-ik > mvn clean compile packa...原创 2019-07-18 11:10:48 · 1612 阅读 · 0 评论 -
phoneix数据库 部署篇(一)
phoneix数据库 语法来自 | 官网 1.本问所讲述的phoneix并非 网页框架,实则为可以与hbase互相配合使用 2.在列式数据库的基础上集成到一套类似与mysql这种关系型数据库到一套框架 ,以关系型数据库的思维去体验弥补列式数据库本身带来到劣势(事务). 3.phoenix将用户编写的sql查询语句编译(原理是协处理器)转化为一系列的 habse 的 scan,put等...原创 2019-06-29 22:15:37 · 271 阅读 · 0 评论 -
Hbase Api常规操作记录
Hbase Api常规操作记录这个是之前整理出来做到一系列接口本文主要是在增删改查到基础上,记录原子操作(checkAndPut)以及batch操作(混合put/get/delete)到使用废话不多说直接上代码package com.bigdata.hbase.test;import org.apache.hadoop.conf.Configuration;import org.ap...原创 2019-06-22 16:58:46 · 315 阅读 · 0 评论 -
kibana+elasticsearch+filebeat (7.1.0)docker容器实现日志分析记录配置,并与harbar服务结合部署
##安装部署流程elasticsearch 安装部署流程下载elasticsearch7.1 最新版本 docker (elasticsearch用来存储日志记录) shell> docker pull docker.elastic.co/elasticsearch/elasticsearch:7.1.0 本地安装并配置支持跨域容器设置 1. 开启容器 shell> doc...原创 2019-06-03 13:28:05 · 2237 阅读 · 0 评论