Maxwell读取MySQL binlog日志到Kafka 启动MySQL 创建Maxwell的数据库和用户 在MySQL中创建一个测试数据库和表前3步详细步骤见实时数仓之Maxwell读取MySQL binlog日志启动Zookeeper 12 [hadoop@hadoop001 ~]$ cd $ZK_HOME/bin[hadoop@hadoop001 bin]$ ./zkServer.sh start...
Maxwell读取MySQL binlog日志 下载maxwell解压maxwell修改MySQL的配置文件my.cnf 123456 [root@hadoop000 ~]# cd /etc[root@hadoop000 etc]# vi my.cnf[mysqld]server-id = 1binlog_format = ROW PS:binlog_for...
collect、explode、concat、lateral view 一、collect_set 和 collect_list 函数collect_set(col) 、 collect_list(col)函数只接受基本数据类型,它的主要作用是将某字段的值汇总,产生Array类型字段,注意该函数只能接受一列参数!我们一般都会配合group by 函数,直接汇总分组数据!collect函数也可以实现一个功能:获取group by后面没有的字段!c...
with as 使用 背景当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级、多个地方存在重复使用的情况,这个时候我们可以使用 with xxx as 语句 ,将其独立出来,极大提高SQL可读性,简化SQL。注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Commo...
oracle sqoop hdfs 示例 sqoop export \--connect jdbc:oracle:thin:@121.36.164.xxx:1521:HELOWIN \--username test1 \--password test1 \--fields-terminated-by '\t' \--table TEST1.STUDENT \--export-dir /user/hive/warehouse/o...
flink 窗口 window一般真实的流都是无界的,怎么处理无界的数据?可以把无限的数据流进行切分,得到有限的数据集进行处理 --也就是得到有界流窗口就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶中进行分析窗口类型时间窗口(time window)滚动时间窗口(Tumbling Window)将数据依据固定的窗口长度对数据进行切分时间对齐,窗口长度固定,没有重叠,每条数据...
hive DDL 库createCREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];create database if not exis...
hive个人使用 持续更新 1、连续n天例如连续12登陆,先日期进行从小到大进行排序,再rank ,然后日期减去rank的序号,有多少个相同的连续值就是连续多少天2、数据只有本月和本月数添加第三列是之前12个月的数总和(sum(ct2.CREATE_PROJECT_CURRENT_MONTH_CNT) over(ORDER BY ct2.CURRENT_MONTH_ID ASC ROWS BETWEEN 12 pr...
flink 并行度 任务链 task分配 Flink 中每一个 TaskManager 都是一个JVM进程,它可能会在独立的线程上执行一个或多个 subtask为了控制一个 TaskManager 能接收多少个 task, TaskManager 通过 task slot 来进行控制(一个 TaskManager 至少有一个 slot)slot 主要隔离内存,cpu 是slot之间共享的。也就是说4核的机器 ,内存足够,可以把s...
flink 1.9.1 mac 单机使用 1、Standalone部署flink 安装包解压后放在自定义的位置,看个人习惯选择配置环境变量https://flink.apache.org/downloads.html#apache-flink-191这里使用的是没有hadoop 支持的版本,standalone模式无需hadoop支持修改配置文件vim flink-1.9.1/conf/flink-conf.yaml...
flink assign watermark源码分析 水印生成的周期默认的生成周期是200毫秒,我们可以在环境中修改这个时间val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) // T...
datax mysql 说明datax 是通过plugins来操作的我们需要mysqlreader hdfswriter 这两个插件准备下载datax3tar -zxvf datax.tar.gz -C /opt/module/vim /etc/profileappend export DATAX_HOME=/opt/module/dataxexport PATH=$PATH:$DATAX_HOM...
datax介绍 基于datax官网 一、Datax概览离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Features将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论...
sqoop 4种密码使用模式 背景sqoop是一个用来将Hadoop和关系型数据库(RDBMS)中的数据进行相互转移的工具。在使用sqoop时,我们需要提供数据库的访问密码。目前sqoop共支持4种输入密码的方式:明文模式交互模式文件模式别名模式笔者使用的是CDH6.2.1里的sqoop。在待会的演示中,我们将以mysql作为我们的关系型数据库。明文模式明文模式是最为简单的方式。我们可以在执行sqoop命令...
docker 安装mysql 开启binlog 每天备份数据 1、安装dockerwget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y docker-ce-19.03.4给docker 配置`usermod -G docker root`systemctl ena...
Sqoop --split by 支持的类型及现象 varchar现象1、抽取失败2、-m 指定多个任务,会无法切分任务,抽过来的数据行数有可能发生偏差当你的抽取任务指定的split key 为varchar 时最好指定任务个数为1int现象当int的范围特别小的时候,最后一个mapper会有一定倾斜split key 支持的好的数据类型BigDecimal,Boolean,Date,Float,IntegerBigDecim...
hive修改 application name中文乱码解决 初衷基于spark引擎的hive,在hive客户端中提交查询sql后,在yarn管理界面,或者8088界面,看到的作业名称都是"hive on spark",如下图所示,如果有多个脚本同时在运行时,就不好分辨。修改方式mapreduce 引擎yarn1set mapred.job.name=xxx;yarn2set mapreduce.job.name=xxx;spark 引...
hive 指定yarn queue Hive提供三种可以改变环境变量的方法,分别是:(1)修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)命令行参数;(3)在已经进入cli时进行参数声明。下面分别来介绍这几种设定。上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。方法一在Hive中,所有的默认配置都在${HIVE_HOME}/conf/h...
cdh hive mysql 元数据常用介绍 table versionselect * from version;+--------+----------------+----------------------------+| VER_ID | SCHEMA_VERSION | VERSION_COMMENT |+--------+----------------+---------------------...