大数据
文章平均质量分 50
xingchengdahai_999
这个作者很懒,什么都没留下…
展开
-
flink-cdc1.13.6读取mysql-binlog写入kafka出现数据倾斜
一、flink-cdc读取数据写入kafka出现了数据倾斜原创 2022-02-24 11:32:24 · 2029 阅读 · 1 评论 -
VMware虚拟机启动报错繁忙
虚拟机启动报错系统繁忙当虚拟机出现上图情况时,无法关闭也无法重新启动。原因是在关闭虚拟机的时候没有正常关闭导致的。此时在虚拟机的目录下出现了下图中的前三个文件,是无法删除的 3. 此时需要使用如下window + R 输入: msconfig 然后确认4、然后点击【服务】-》选中【隐藏所有Microsoft服务】 =》 【全部禁用】5、然后重启计算机。可以删除之前无法删除的三个文件。6、使用如下window + R 输入: msconfig 点击【服务】-》选中【隐藏所有Microsof原创 2022-02-12 10:37:59 · 4451 阅读 · 2 评论 -
Flink的Checkpoint和savepoint的区别和作用
Flink的Checkpoint和savepoint的区别和作用一、Flink的checkpointflink的checkpoint是异步的、分布式的、轻量级的,将同一时间点的task/operator的状态数据全局统一快照处理,包括用户自定义的keyed state和operator state 当未来程序出现问题,可以基于保存的快照容错。checkpoint的原理A:flink会在输入的数据集中,间隔的生成checkpoint barrier,通过barrier间隔时间段内的数据划分到相应的c原创 2020-12-31 07:28:40 · 1229 阅读 · 0 评论 -
Flink提交作业到yarn session集群main函数命令行参数传递
创建flink的yarn session集群yarn-session.sh -n 3 -s 3 -nm flink-sessiontest -d -qyarn-session选项:-n,–container :在yarn中启动container的个数,实质就是TaskManager的个数-s,–slots :每个TaskManager管理的Slot个数-nm,–name :给当前的yarn-session(Flink集群)起一个名字-d,–detached:后台独立模式启动,守护进程-tm,原创 2020-12-18 11:18:21 · 3144 阅读 · 0 评论 -
使用dataX将HBase的数据导入到Oracle问题总结
1 、datax的安装,略,下载安装包开箱即用2 、开发可以参考官方的github非常全面datax的job配置指导3、操作中发现hbase的数据一直导出为空。job的配置文件如下:按照如上的配置使用命令调用: python datax.py …/job/hbase2oracle3.json发现数据没有读取出来。最后将job的json文件改成小写之后才成功了!数据成功读取并导入到了Oracle总结:大数据环境中有些场景下对大小写是敏感的,不像Oracle,大小写不明感(除了原创 2020-12-09 17:51:15 · 821 阅读 · 0 评论 -
Mysql的索引优化总结
Mysql的优化一、回表,索引覆盖,索引下推,最左匹配原创 2020-05-07 23:14:34 · 188 阅读 · 0 评论 -
Mysql的索引为什么使用B+Tree
Mysql的索引为什么使用B+Tree四个问题为什么要设计索引?如果是你,改如何设计索引?设计索引的时候使用什么数据结构?Mysql的索引是如何实现的?一、mysql的存储引擎show engines; 可以查看mysql所使用的的存储引擎,因为不同的索引是构建在不同的存储引擎之上的。1:如上图,用的最多的三种就是:InnoDB(B+树,支持自适应hash,没法人为的去改变)。...原创 2020-05-07 17:24:02 · 192 阅读 · 0 评论 -
Redis是多线程的吗
Redis是多线程的吗?很多面试官在面试的时候会问:redis在业务处理的时候是多线程还是单线程的?,仅仅回答是多线程或者是单线程都不是很恰当,所以在文章的后面总结出一个简洁的回答。本次总结是针对Redis5.X的,不是刚刚2020-05-02号上线的Redis6.X的版本,值得注意的是这次6.X版本中新增了I/O threads 。一、redis5.x的安装(centos6.x)1 :m...原创 2020-05-05 00:52:45 · 872 阅读 · 0 评论 -
kafka如何实现无消息丢失
kafka如何实现无消息丢失1:kafka什么情况下才能保证消息不丢失了?kafka只对已提交的消息做有限度的持久化保存A:什么是已提交消息,kafka的broker成功的接收到一条消息并成功的写入到日志文件中后,会告诉生产者这条消息已提交成功,此时这条消息在kafka看来是已提交消息。至于要多少个broker告诉生产者,这个需要设置kafka的ACK机制了,0,1,-12:目前kafk...原创 2020-04-11 21:47:15 · 193 阅读 · 0 评论 -
kafka是如何将数据均匀分布到所有服务器上
kafka是如何将数据均匀分布到所有服务器上2019-06-24原创 2020-04-11 11:15:38 · 1810 阅读 · 0 评论 -
生产中kafka集群最最重要的集群参数配置
最最重要的kafka集群参数配置一、Broker 端参数1:Broker是需要配置存储信息的,即Broker使用哪些磁盘,针对存储信息的参数如下:log.dirs:指定Broker需要使用的若干个文件目录,这个参数没有默认值,这个需要自己指定。log.dir:他是上一个参数的补充。所以只用设置log.dirs即可。2:一般线上的生产环境中都会给log.dirs指定多个路径,例如:/opt...原创 2020-04-09 23:20:27 · 335 阅读 · 0 评论 -
生产中kafka集群需要规划多大的存储空间
生产中kafka集群需要规划多大的存储空间说明:kafka会把消息保存到磁盘中,这些消息默认保存一段时间之后就会被自动删除,多久删除是通过配置文件自己配置规划的。一、需要考虑一下几点问题:1:增量消息2:消息的留存时间3:消息副本数4:平均每条消息的大小5:是否使用消息压缩二、举例计算一下假如每天5亿条 1KB大小的消息,副本数是3个,保存一周的时间,那么总的空间大小就是:5亿...原创 2020-04-09 22:21:18 · 4188 阅读 · 0 评论 -
kafka的ACK机制
kafka的ACK机制介绍1):0:producer不等broker的leader同步完成确认,继续发送下一条或者下一批消息。延迟最低,持久性最弱。服务器发生故障,很有可能丢失数据。也就是at most once2):1:producer等到leader收到数据并得到确认,才发送下一条或者下一批消息,有较好的持久性和延迟性。也就是所说的消息的异步同步。3):-1:producer等到所有的f...原创 2020-04-07 21:23:17 · 431 阅读 · 0 评论 -
MapReduce框架原理
MapReduce流程详解一、MapReduce流程图如上图所示,就是一个map,reduce的过程,其中包括了map过程,shuffle过程,reduce过程二、关于shuffle过程详解1:mapTask收集我们map方法输出的<k,v>,放入到内存缓冲区中。2:从缓冲区中以【80% * 缓冲区大小】 的文件溢写到磁盘,可能是多个文件。3:多个溢写出的文件会被合并成大...原创 2020-04-06 23:36:45 · 173 阅读 · 0 评论 -
HDFS的文件读写流程剖析
HDFS的文件读写流程剖析一、HDFS文件写入流程1:客户端向集群中的NameNode发送文件上传的请求,NN进行一系列的校验(文件是否存在,权限是否存在,文件目录是否存在),当校验通过之后,NN会给客户端一个相应,通知客户端可以上传文件。2:客户端会第二次请求第一个文件的block要传到哪些datanode中,namenode就会返回对应的DN,分别为DN1,DN2,DN3。3:客户端请...原创 2020-04-04 23:42:57 · 283 阅读 · 0 评论