- 博客(6)
- 收藏
- 关注
原创 mybatis-plus基本使用
引入依赖<dependency> <groupId>com.baomidou</groupId> <artifactId>mybatis-plus-boot-starter</artifactId> <version>3.2.0</version></dependency>yml配置# mybatis-plus相关配置mybatis-plus: # xml扫描,多个目录用逗号或者分号.
2020-07-25 22:39:30 218
原创 Spark RDD、DF、DS互转
DataFrame/Dataset 转RDDval rdd1=df.rddval rdd2=ds.rddRDD 转DataFrameimport spark.implicits._val df = rdd.map {line=>(line._1,line._2)}.toDF("col1","col2")一般用元组把一行的数据写在一起,然后在toDF 中指定字段名一定要加上import spark.implicits._ 不然toDF、toDS 无法使用RDD 转Dataset
2020-06-09 18:11:21 567
原创 分布式协调框架:ZooKeeper
应用场景分布式协调:对Zookeeper中的数据做监听,一旦数据发生变动都会感知。为客户端进行选举元数据管理:存放客户端需要的元数据信息,Dubbo、Kafka等中间件都有用到高可用:利用分布式锁实现高可用,多个节点往ZK上注册,注册成功后成为active,没有注册成功的节点阻塞分布式锁:可以搞,但高并发下性能差,建议用Redis基础知识数据模型树形结构使用ZKCli.sh登录到ZooKeeper服务器上,可以看到一个层级关系的数据结构,类似于文件目录,如下图所示,这个数据结构就是 Zo
2020-05-26 13:38:56 677 1
原创 DataX添加告警功能
前言公司的DataX已经用了2年多了,性能以及基本功能上没有太大问题。但是有一个问题一直困扰着我,就是DataX的错误告警。DataX的日志问题,一直令人头疼。随着job的逐渐增多,一个调度程序或者脚本打印出来的日志实在太多,假如中途有哪个job执行报错,根本无法排查,虽然DataX自身会记录每个job执行的日志,在log目录下,命名规则:脚本名称+执行时间,但是文件数目过多排查起来还是挺困难的。设计思路有了需求,就可以开始设计,给DataX添加告警功能有两种办法,修改源码和捕获日志,当时为了不侵入源
2020-05-22 20:38:21 1286
原创 DataX原理及安装
DataX简介DataX是什么?它是干什么用的?下面是官方给的介绍。DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上Da
2020-05-22 18:02:15 1046
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人