大数据架构学习
大数据langlang
大数据中的小学僧!!!
展开
-
【shell】反引号的转义问题
shell需要三个转义符转义,在python脚本中需要添加6个。原创 2022-11-07 20:58:42 · 539 阅读 · 1 评论 -
[kafka]数据延迟
topic分区hash设置不合理,数据分布不均匀消费组消费力不行,并行度不高消费不均匀,某一个分区长时间未被消费,导致数据延迟。原创 2022-09-28 10:45:35 · 926 阅读 · 0 评论 -
【kafka】kafka乱码问题
由编码异常导致数据问题。原创 2022-09-26 16:38:40 · 1277 阅读 · 0 评论 -
【Python】ImportError: html5lib not found, please install it
python读取excel原创 2022-06-22 00:23:57 · 3494 阅读 · 0 评论 -
【Doris】升级报错,fe启动失败
fe升级失败原创 2022-06-15 10:23:37 · 743 阅读 · 0 评论 -
【canal问题总结】线上canal问题排查:CanalParseException: column size is not match,parse row data failed
原因:修改了canal.properties想过滤出ddl dcl语句,防止doris实时同步读到ddl、dcl语句导致报错想要过滤ddl dcl语句canal.instance.filter.query.dcl = truecanal.instance.filter.query.ddl = true错误:canal读取不到ddl语句,导致字段个数对不上2022-05-22 13:46:19.857 [destination = test , address = pay-partition-原创 2022-05-22 21:54:43 · 773 阅读 · 0 评论 -
[Canal]canal安装和配置
1、安装1、下载安装包:https://github.com/alibaba/canal/releases/download/canal-1.1.5/canal.deployer-1.1.5.tar.gz2、tar -zxvf -C 指定目录解压2、配置修改1、全局配置(修改canal.properties)canal.mq.database.hash = false -- 同步分库分表的数据,使分库分表数据在一个分区中kafka.bootstrap.servers= xxx:9092 设置原创 2022-05-22 20:57:07 · 838 阅读 · 0 评论 -
【kafka】kafka创建topic如何确定分区,如何计算kafka机器台数
1、创建test topic 单分区bin/kafka-topics.sh --create --replication-factor 2 --partitions 1 --topic test --zookeeper xxx:21812、producer压力测试bin/kafka-producer-perf-test.sh --topic test --record-size 100 --num-records 100000 --throughput -1 --producer-props bo原创 2022-05-22 09:53:15 · 1499 阅读 · 0 评论