- 博客(45)
- 收藏
- 关注
原创 DVA环境配置时出错: SQLite does not support JSONFields以及vue和vue-template-compiler版本不匹配的错误
SQLite does not support JSONFields以及vue和vue-template-compiler版本不匹配
2022-11-15 10:55:58
363
原创 vue3+ElementPlus使用 lang=“ts“报Unexpected token错误
vue3+ElementPlus使用 lang=“ts“报Unexpected token错误
2022-09-24 11:12:13
2776
原创 python程序在pycharm正常运行,但在命令行就报错:ModuleNotFoundError: No module named ‘xxx‘
python运行报错:ModuleNotFoundError: No module named ‘xxx‘
2022-06-29 09:33:00
1636
1
原创 二叉树之求解树宽度类
以此树为例:求解二叉树宽度主要采用层次遍历的思想,每遍历一层,记录一层的宽度,最后取宽度最大值int getMaxWidth(BiTree* T) { if (T == NULL) { return 0; } //层次遍历队列 BiTree* Q[100]; //记录宽度 int width = 1, temp = 0; //队列头尾指针 int front = -1, rear = -1; //记录每一层结束的标记 int last = 0; BiTree* p;
2022-04-17 20:55:00
844
原创 二叉树之求解树高度类算法归纳
二叉树求解树高度类一、求二叉树的最大深度二、求二叉树的最小深度三、结果展示以此树为例:一、求二叉树的最大深度int getMaxDepth(BiTree* T) { if (T == NULL) { return 0; } //递归求左子树的高度 int ldep = getMaxDepth(T->lchild) ; //递归求右子树的高度 int rdep = getMaxDepth(T->rchild) ; //返回最大深度 return max(ldep, r
2022-04-15 17:43:35
1141
原创 二叉树之求解节点个数类算法归纳
二叉树求解节点个数类一、求二叉树中节点总数二、求二叉树中度为0的节点个数三、求二叉树中度为1的节点个数四、求二叉树中度为2的节点个数五、求二叉树第k层节点个数六、结果展示以此树为例:一、求二叉树中节点总数int getNodeNumRec(BiTree* T) { if (T == NULL) { return 0; } else { return getNodeNumRec(T->lchild) + getNodeNumRec(T->rchild) + 1 ; }
2022-04-14 19:38:56
3086
原创 flink消费kafka时topic partitions 和并行度间的分配源码详解
引言当我们消费kafka的一个topic时,我们知道kafka partition 是和我们设置的并行度是一一对应的;也就是说,假如我们的topic有12个分区,那我们就设置12个并行度,这样每个并行度都能接收到数据且数据均匀;那如果我们设置了15个并行度,那么就会有3个并行度是收不到数据的;这可以在web ui上,点开source operate 查看SubTasks的Bytes Sent,就可以发现,有三个SubTasks的Bytes Sent始终为0。当我们消费kafka多个topic的时候,
2020-12-23 17:27:16
2139
1
原创 记一次集群节点因oom挂掉的问题解决
前言最近我们为了节省开支,大数据集群下了几个节点,结果没运行两天,就出现了掉节点的情况;问题排查经排查,发现节点并没有问题,可以正常登陆,排除节点、硬件故障;去对应节点查看datanode.out日志,发现报错信息得知:节点挂掉原因是因为oom;解决方案定位到hadoop-env.sh文件中的hadoop_datanode_heapsize参数,现在我们集群的堆内存参数是3G,但是我们因为之前下了几个节点,导致我们每个节点的块数量有将近700万块;正常情况下,100万块对应1G左右的内存,我
2020-12-11 12:01:05
348
原创 Flink入门之对checkpoint和Flink内部精确一次性消费的理解
Flink--Checkpoint机制原理前言一、如何理解flink中state(状态)Ⅰ、state理解Ⅱ、案例理解stateⅢ、为什么需要state管理Ⅳ、理想中的state管理二、如何理解flink中checkpoint(检查点)Ⅰ、执行流程Ⅱ、ck保存了什么Ⅲ、单分区单并行度执行流程详解Ⅳ、多分区多并行度执行流程详解三、如何理解Flink内部精确一次消费Ⅰ、barrier对齐Ⅱ、barrier不对齐Ⅲ、barrier对齐与不对齐的影响参考博客前言最近有个项目涉及到要用RocksDB做增量Chec
2020-12-10 17:44:25
1701
原创 flink任务挂掉后从ck自动重启
问题描述我们的flink程序往往是7*24小时在运行的,当任务挂掉后,我们虽然可以通过监控报警等,第一时间知道程序挂掉,但是如果我们电脑不在旁边或者我们在休假,这种情况,往往不能够及时的重启任务。需求想实现一个脚本,能够在规定的时间范围内监测到任务已经停止,然后自动运行重启命令,重启任务;如果任务是存有中间状态的,那么还需要在自动重启时获取到任务的checkpoint路径实现思路关于监测任务是否挂掉我们可以利用yarn的命令配合Linux的命令行来找到你提交的命令,例如:yarn app
2020-11-13 17:49:09
2141
5
原创 flink入门之StreaimingFileSink的使用
需求:用flink实时消费kafka信息,将信息存储到hdfs上。方案:用flink提供的StreaimingFileSink方法。
2020-11-12 16:46:47
550
原创 Flink WebUI中查看成功提交的偏移量指标为负值
1.问题在一个flink任务提交后,我去 WebUi去查看偏移量的指标,发现值竟然是个负数(如下图):这个指标官网上给出的释义是:对于每个分区,最后一次成功提交到Kafka的偏移量;所以不管怎么说,这个值都不是正常的。2.结论先给问题的结论(解决办法):之所以出现这样的值,是因为没有设置checkpoints的原因。3.详解但为什么不设置ck,这个指标就会变成负值呢?这就要我们深入源码去看啦首先,我们定位到这个类:org.apache.flink.streaming.connectors
2020-09-05 15:59:51
581
原创 flink采用分离模式提交报错:java.lang.NoSuchMethodError
问题背景最近在写完一个flink项目后打包到集群运行,提交时因为满脑子想着周末怎么去浪,结果提交完发现提交命令忘记了-d参数,无奈只能手动kill掉任务,然后加上-d参数重新提交,结果问题就出现了,flink任务刚刚提交到yarn就会报如下错误:排查问题没有办法,只能顺着错误日志去寻找问题,第一步,先看大致错误:java.lang.NoSuchMethodError:org.apache.hadoop.yarn.api.protocolrecords.AllocateRequest.newIn
2020-08-20 17:31:37
1320
原创 maven编译出错:Could not find artifact:jdk.tools:jdk.tools:jar:1.8 at specified path
最近在开发项目打包时,遇到了一个错误:Could not find artifact jdk.tools:jdk.tools:jar:1.8 at specified path一涉及到maven的错误,我就觉得很头大,特意在此记录一下:主要原因:hadoop-common依赖带了 tools的文件,和本机jdk带的冲突解决:排除掉依赖中的jdk.tools <dependency> <groupId>org.apache.hadoop</
2020-08-19 17:24:18
4331
2
原创 flink入门之scala实现异步IO访问redis及踩坑记录(2)
我们在flink入门之scala实现异步IO访问redis及踩坑记录(1)中采用jedis来模拟异步读取redis,那么在本篇,我们要采用redis的高级客户端lettuce,这个客户端很强大,支持异步操作,如果想具体了解的请移步:Redis高级客户端Lettuce详解首先我们导入依赖: <dependency> <groupId>io.lettuce</groupId> <artifactId>lett
2020-08-19 11:55:57
726
原创 正确使用Flink广播流以及记录Flink做checkpoints失败情况
最近在做项目的时候,涉及到这样的一个场景,就是要把一个比较小并且不会经常改动的表作为维表,和实时流进行匹配。这张表是MySQL中的一个表,我的第一反应就是读取这张表进行广播。文章目录不优雅的广播流使用使用广播流造成的写入检查点失败优雅使用广播流不优雅的广播流使用简要代码如下:val env = StreamExecutionEnvironment.getExecutionEnvironmentval broadcastMysql = env.addSource(new SourceFromMySQ
2020-08-18 19:24:23
1440
原创 读取hdfs上snappy压缩文件并发送kafka的两种方式速度测试
最近有一个需求,因为第一次做,踩了许多坑,故在此记录一下需求背景:现在hdfs上有一份snappy压缩的文件,要把这份文件中的数据读出来并发送给kafka解决思路平时我90%的时间都是在消费kafka,现在要写入kafka,我承认我第一反应是懵逼的;不过这并难不倒天资聪慧的我,我首先想到的就是用spark去读出数据后,直接发送给kafka;so easy~问题记录Ⅰ、解析json问题我用spark很快的就写好了代码,大概如下:val rdd = spark.read.schema(schem
2020-07-21 20:06:36
744
原创 idea小bug:找不到或无法加载主类以及修改代码不生效
今天我像往常一样,打开idea,在本地调试程序,但是却出现:错误: 找不到或无法加载主类我一脸懵逼,想着为什么会出现这个无厘头的错误,回忆起上午貌似有一个程序卡住了,在我结束掉程序时idea未响应,我就强制关闭了idea,或许跟这个有关系;在我不断摸索下,找到了解决办法:1.菜单—》Build—》Rebuild Prodject2.菜单—》File—》Invalidate Caches/Restart 选择Invalidate and Restart 或者 只是Invalidate,清除掉缓存,然
2020-07-08 19:30:01
274
原创 spark和flink读取csv文件对比
最近总是会有需求要涉及到读取csv文件,以前总是拿到文件就去读,没有仔细去看相关的方法和功能,现在结合最近的需求,记录一下spark和flink读取csv文件的操作。(注:本文内容针对spark2.3.0以及flink1.9.1)spark:本来想自己总结一下,但是这里有位大佬写的很详细,可以直接参考:https://blog.csdn.net/weixin_42411818/article/details/98734464举个简单的小例子,现在我们有这样一份csv文件我们只想读uuid和ph
2020-05-11 11:56:52
608
原创 一次Spark SQL提取数据所遇到的问题
目录需求背景及解决思路问题Ⅰ:csv编码问题问题Ⅱ:shuffle前后的分区问题问题Ⅲ:broadcast join不生效问题Ⅳ:sparksql关于stage的划分需求背景及解决思路boss给了一份csv文件,要求从数仓中的点位表中筛选出csv文件中点位所对应的uuid信息;需求很简单,用spark读取csv文件,然后join数仓的点位表即可,伪代码如下:(csv文件2M,数仓中的点位表100亿数据)... val frame = sparkSession.read.csv(localpath
2020-05-09 18:27:01
859
原创 hbase的SingleColumnValueFilter和addColumn的坑
问题:最近在查一张Hbase表时,设定单列过滤器,取time列时间为某一天的数据:filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes("cf"), Bytes.toBytes("time"), CompareFilter.CompareOp.GREATER_OR_EQUAL, new BinaryComparator(B...
2020-04-20 14:51:00
641
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人