自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小夕姨

小夕姨--小喜-xiyi~喜

  • 博客(19)
  • 收藏
  • 关注

原创 Spark双流join-延迟数据--double_happy

目的: Spark流式处理是微批次进行处理的 那么双流join 的时候 如何保证各个批次 以及跨批次进行join呢???Spark流处理进行双流join: 1.延迟数据会join不上 2.该如何join问题Spark双流join可能发生的情况: 1.左右 2.无右 3.左无注意: 左右分布代表 不同的流 有数据 无表示 没有数据 即: 左无:就是左边有数据,右边没有数据解决思路: 下图测试Spark双流join问题展现这里就不已Kafka数据进行测试

2020-11-19 14:17:26 959 3

原创 maxwell-启动报错--double_happy

[hadoop@172 maxwell-1.22.1]$ bin/maxwell --config ./config/config_hivemeta/stout_config_sync_jx.properties Using kafka version: 1.0.1SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/wangshuangxi/project/s

2020-10-19 09:59:10 42

原创 SQL转化为MapReduce的过程--Double_happy

Hive SQL 执行计划深度解析Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段:1.Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree2.遍历AST Tree,抽象出查询的基本组成单元QueryBlock3.遍历QueryBlock,翻译为执行操作树OperatorTree4.逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量5.遍历O

2020-10-15 17:39:17 22

原创 SQL--Double_Happy

SQL执行顺序:FROM->ON->JOIN->WHERE->GROUP By->CUBE|ROllUP->HAVING->SELECT-> DISTINCT->ORDER BY->LIMITMapReduce实现基本SQL操作的原理Join的实现原理在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下(这里只是说明最基本的Join的实现,还有其他的实

2020-10-15 13:47:05 22

原创 Griffin--Double_happy

部署前准备:ES:部署[hadoop@172 software]$ lltotal 1362420-rw-rw-r-- 1 hadoop hadoop 1107895858 Aug 24 19:06 datax.tar.gz-rw-rw-r-- 1 hadoop hadoop 97901357 Sep 15 14:09 elasticsearch-6.4.0.tar.gz-rw-rw-r-- 1 hadoop hadoop 187936225 Sep 15 14:20 kibana-6.4

2020-09-15 20:26:26 17

原创 Flink07-续3-double_happy

接着上一篇文章写接着checopint :source:repaly flink :一次性语义 sink :也是一样的说一下 checkpoint 配置参数 之前可能没有提到的东西Related Config Optionsstate.checkpoints.num-retained:The maximum number of completed checkpoints...

2020-08-25 19:35:48 114

原创 BI ON Haoop-01-double_happy

需求分析:1.了解我们的数据 维表:dim_province 省份维度表 字段:province_id province_name 维表:dim_city 城市维度表 字段:province_id city_id city_name 事实表:dw_user_click_d 清洗汇总过后的用户行为点击表 字段:day user_id province_id city_id flow os pv 名词解释

2020-08-04 14:49:29 82

原创 kylin编译部署--double_happy

因为我的 虚拟机上的hadoop 版本是 cdh5.16.2使用 kylin 需要编译成 对应的版本 要不然 会有兼容问题环境准备: 1.jdk1.8 2.maven 先安装安装nodejs 下载到 software下wget https://nodejs.org/dist/v10.9.0/node-v10.9.0-linux-x64.tar.xz tar xf node-v10.9.0-linux-x64.tar.xz -C ~/appln -s /home/sxwang/a

2020-07-26 16:52:03 137

原创 广告-offline-warehouse-01-double_happy

1.MySQL: 1.不同库下面的表 进行join 是 很难的 很苛刻 为什么呢? 1.sql语法是很简单 但是 要保证: 1.数据库A 数据库B 1.字符集跟排序规则,需要保持一致 2.字段的字符集排序规则 要一致注意: 所以条件很苛刻 参考: https://blog.csdn.net/AS761379193/article/details/89298484第一个阶段: 2.那么怎么更好的解决这个问题? 1. 把数据入到 Hive

2020-06-14 22:08:34 64

原创 java多线程与并发--double_happy

CAS结合 高并发 文章看compare and swap. : 比较 和 交换 在多线程 没有锁的 情况下 可以保证 多线程对一个 共享变量的 更新使用: 拿到内存中的最新值,使用CAS尝试将内存的值修改成目标值 如果修改失败, 则获取内存位置的最新值,然后重新尝试,直到修改成功注意: 当前值,内存中最新值,目标值 当前值 与 内存中最新值 进行比较 相等 就更新 目标值 不相等 说明 其他线程修改了这个共享变量的值 则然后重新尝试,直到修改成功 CA

2020-05-11 19:38:14 86

原创 alluxio -- double_happy

Alluxio1.用于 spark 去重 后 存中间结果 alluxio 是 内存级别的 分布式系统

2020-05-08 11:13:06 57

原创 Spark-Listener --double_happy

前言: Spark任务 提交之后 在 Spark ui 上面 可以查看我们的 任务信息那么这些信息 是如何得到的呢?? 就是 Spark Listener Spark Listener对于 streaming job堆积监控 可以使用 它待续...

2020-05-07 17:25:48 54

原创 Spark-prewarning-doublehappy

spark on yarn参考文章关于在yarn上的spark 任务我们应该做哪些监控,如何监控。:1. app存活2.spark streaming的job堆积情况3.job运行状态及进度4.stage运行进度5.rdd缓存监控6.内存监控等1. App存活监控pom.xml:添加<!--yarn 监控 app存活--> <dependen...

2020-05-04 15:11:15 80

原创 高并发--Double_happy

高并发相关问题CPU的Cache问题:1.CPU的指令 程序运行的过程中指令 都是在 cpu中运行的(eg:Spark 里 读 和 写 (数据)) Cpu 能访问的数据 是在 主存里 (主存 可以理解为 物理内存)注意: cpu 近几年 性能提升很大 而 内存 它的处理没有明显的提升 所以 内存 和 cpu 是不对等的 所以 : cpu 操作 内存 里的...

2020-04-19 12:18:00 85

原创 superset--doublehappy

部署:按照官网 进行 docker 部署:git clone https://github.com/apache/incubator-superset/cd incubator-superset# you can run this command everytime you need to start superset now:docker-compose up或者:https...

2020-03-22 20:30:44 92

原创 Spark009--spark-shell执行流程

spark-shell脚本[double_happy@hadoop101 bin]$ cat spark-shell #!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTIC...

2020-03-10 21:37:50 85

原创 Kubernetes--k8s--double_happy

介绍k8s 就是为了 容器 container而做准备的k8s官网k8s : 1.自动化部署 2.容器的管理 3.伸缩如果单纯的用docker来做 会有什么不方便呢? 1.每一个 container 表示一个进程 一个一个启动 太费劲了为了方便? k8s我们使用 1.13版本的k8sk8s文档部署部署官网地址kubeadm 工具 : 来进行部署 k8s...

2020-03-10 21:37:03 222

原创 phoniex--double_happy

Phoniex1.Phoinex 源码改动后 要进行编译 生成 tar.gz 包2.部署 Phoinex 3.解决问题**部署 Phoinex **基于 新加坡 阿里云节点进行 编译 Phoneix 修改后的源码 进行编译: 以为 本地 idea 编译 有的时候所依赖的 jar 下载不了1.[sxwang@hadoop003 software]$ lltotal 33952...

2020-03-10 21:35:22 73

原创 Kafka--doublehappy

步骤文章参考1.创建topic/opt/cloudera/parcels/KAFKA/lib/kafka/bin/kafka-topics.sh \--create \--zookeeper hadoop001:2181,hadoop002:2181,hadoop003:2181/kafka \--replication-factor 3 \--partitions 3 \--to...

2020-03-10 21:29:38 284

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除