yagch
码龄9年
关注
提问 私信
  • 博客:112,001
    112,001
    总访问量
  • 52
    原创
  • 1,414,758
    排名
  • 120
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2016-05-05
博客简介:

qq_34897849的博客

查看详细资料
个人成就
  • 获得35次点赞
  • 内容获得5次评论
  • 获得182次收藏
创作历程
  • 12篇
    2020年
  • 52篇
    2019年
成就勋章
TA的专栏
  • hive
    15篇
  • maxwell
    2篇
  • mac 
    2篇
  • flink
    4篇
  • datax
    2篇
  • redis
    1篇
  • docker
    2篇
  • 股
    1篇
  • sublime
    1篇
  • canal
    1篇
  • linux
    3篇
  • cdh
    2篇
  • sentry
    1篇
  • phoenix
    1篇
  • spark streaming
    1篇
  • kafka
    3篇
  • hbase
    2篇
  • sqoop
    17篇
  • nifi
    1篇
  • flume
    1篇
  • mysql
    4篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    回归
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

349人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Maxwell读取MySQL binlog日志到Kafka

启动MySQL 创建Maxwell的数据库和用户 在MySQL中创建一个测试数据库和表前3步详细步骤见实时数仓之Maxwell读取MySQL binlog日志启动Zookeeper 12 [hadoop@hadoop001 ~]$ cd $ZK_HOME/bin[hadoop@hadoop001 bin]$ ./zkServer.sh start...
转载
发布博客 2020.03.30 ·
747 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Maxwell读取MySQL binlog日志

下载maxwell解压maxwell修改MySQL的配置文件my.cnf 123456 [root@hadoop000 ~]# cd /etc[root@hadoop000 etc]# vi my.cnf[mysqld]server-id = 1binlog_format = ROW PS:binlog_for...
转载
发布博客 2020.03.30 ·
1392 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

collect、explode、concat、lateral view

一、collect_set 和 collect_list 函数collect_set(col) 、 collect_list(col)函数只接受基本数据类型,它的主要作用是将某字段的值汇总,产生Array类型字段,注意该函数只能接受一列参数!我们一般都会配合group by 函数,直接汇总分组数据!collect函数也可以实现一个功能:获取group by后面没有的字段!c...
原创
发布博客 2020.03.30 ·
575 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

with as 使用

背景当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级、多个地方存在重复使用的情况,这个时候我们可以使用 with xxx as 语句 ,将其独立出来,极大提高SQL可读性,简化SQL。注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Commo...
原创
发布博客 2020.03.30 ·
1370 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

oracle sqoop hdfs 示例

sqoop export \--connect jdbc:oracle:thin:@121.36.164.xxx:1521:HELOWIN \--username test1 \--password test1 \--fields-terminated-by '\t' \--table TEST1.STUDENT \--export-dir /user/hive/warehouse/o...
原创
发布博客 2020.03.17 ·
142 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink 窗口

window一般真实的流都是无界的,怎么处理无界的数据?可以把无限的数据流进行切分,得到有限的数据集进行处理 --也就是得到有界流窗口就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶中进行分析窗口类型时间窗口(time window)滚动时间窗口(Tumbling Window)将数据依据固定的窗口长度对数据进行切分时间对齐,窗口长度固定,没有重叠,每条数据...
原创
发布博客 2020.01.14 ·
343 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive DDL

库createCREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];create database if not exis...
原创
发布博客 2020.01.11 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive个人使用 持续更新

1、连续n天例如连续12登陆,先日期进行从小到大进行排序,再rank ,然后日期减去rank的序号,有多少个相同的连续值就是连续多少天2、数据只有本月和本月数添加第三列是之前12个月的数总和(sum(ct2.CREATE_PROJECT_CURRENT_MONTH_CNT) over(ORDER BY ct2.CURRENT_MONTH_ID ASC ROWS BETWEEN 12 pr...
原创
发布博客 2020.01.11 ·
377 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink 并行度 任务链 task分配

Flink 中每一个 TaskManager 都是一个JVM进程,它可能会在独立的线程上执行一个或多个 subtask为了控制一个 TaskManager 能接收多少个 task, TaskManager 通过 task slot 来进行控制(一个 TaskManager 至少有一个 slot)slot 主要隔离内存,cpu 是slot之间共享的。也就是说4核的机器 ,内存足够,可以把s...
原创
发布博客 2020.01.11 ·
4467 阅读 ·
4 点赞 ·
0 评论 ·
15 收藏

flink 1.9.1 mac 单机使用

1、Standalone部署flink 安装包解压后放在自定义的位置,看个人习惯选择配置环境变量https://flink.apache.org/downloads.html#apache-flink-191这里使用的是没有hadoop 支持的版本,standalone模式无需hadoop支持修改配置文件vim flink-1.9.1/conf/flink-conf.yaml...
原创
发布博客 2020.01.10 ·
460 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

flink assign watermark源码分析

水印生成的周期默认的生成周期是200毫秒,我们可以在环境中修改这个时间val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) // T...
原创
发布博客 2020.01.09 ·
370 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

datax mysql

说明datax 是通过plugins来操作的我们需要mysqlreader hdfswriter 这两个插件准备下载datax3tar -zxvf datax.tar.gz -C /opt/module/vim /etc/profileappend export DATAX_HOME=/opt/module/dataxexport PATH=$PATH:$DATAX_HOM...
原创
发布博客 2020.01.01 ·
1188 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

redis 面试

厚颜无耻的转载别人的 嘻嘻嘻https://blog.csdn.net/qq_35190492/article/details/102841400
转载
发布博客 2019.12.31 ·
127 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

datax介绍 基于datax官网

一、Datax概览离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Features将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论...
转载
发布博客 2019.12.31 ·
12549 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

sqoop 4种密码使用模式

背景sqoop是一个用来将Hadoop和关系型数据库(RDBMS)中的数据进行相互转移的工具。在使用sqoop时,我们需要提供数据库的访问密码。目前sqoop共支持4种输入密码的方式:明文模式交互模式文件模式别名模式笔者使用的是CDH6.2.1里的sqoop。在待会的演示中,我们将以mysql作为我们的关系型数据库。明文模式明文模式是最为简单的方式。我们可以在执行sqoop命令...
转载
发布博客 2019.12.31 ·
1254 阅读 ·
1 点赞 ·
1 评论 ·
6 收藏

docker 安装mysql 开启binlog 每天备份数据

1、安装dockerwget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y docker-ce-19.03.4给docker 配置`usermod -G docker root`systemctl ena...
原创
发布博客 2019.12.26 ·
602 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Sqoop --split by 支持的类型及现象

varchar现象1、抽取失败2、-m 指定多个任务,会无法切分任务,抽过来的数据行数有可能发生偏差当你的抽取任务指定的split key 为varchar 时最好指定任务个数为1int现象当int的范围特别小的时候,最后一个mapper会有一定倾斜split key 支持的好的数据类型BigDecimal,Boolean,Date,Float,IntegerBigDecim...
原创
发布博客 2019.12.23 ·
1415 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

hive修改 application name中文乱码解决

初衷基于spark引擎的hive,在hive客户端中提交查询sql后,在yarn管理界面,或者8088界面,看到的作业名称都是"hive on spark",如下图所示,如果有多个脚本同时在运行时,就不好分辨。修改方式mapreduce 引擎yarn1set mapred.job.name=xxx;yarn2set mapreduce.job.name=xxx;spark 引...
转载
发布博客 2019.12.18 ·
1317 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive 指定yarn queue

Hive提供三种可以改变环境变量的方法,分别是:(1)修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)命令行参数;(3)在已经进入cli时进行参数声明。下面分别来介绍这几种设定。上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。方法一在Hive中,所有的默认配置都在${HIVE_HOME}/conf/h...
转载
发布博客 2019.12.18 ·
6085 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

cdh hive mysql 元数据常用介绍

table versionselect * from version;+--------+----------------+----------------------------+| VER_ID | SCHEMA_VERSION | VERSION_COMMENT |+--------+----------------+---------------------...
原创
发布博客 2019.12.18 ·
807 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多