![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
生活随笔
文章平均质量分 89
银假面面
先定一个目标,有个简述。O(∩_∩)O哈哈~
展开
-
flinksql流批一体计算平台为什么选型是Streamx
flink实时计算平台为什么选型是Streamx一、概述 1.1 背景Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 —— StreamX, 项目的初衷是 —— 让 Flink 开发更简单, 使用StreamX开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,无需关心idea开发完打包jar原创 2021-07-02 15:42:35 · 4079 阅读 · 0 评论 -
HDFS元数据fsimage文件解析
一,如何找到fsimage文件?通过集群hdfs-site.xml配置项dfs.namenode.name.dir查询二,使用hdfs命令解析fsimage文件必须参数:-i,–inputFile 输入FSImage文件.-o,–outputFile 输出转换后的文件,如果存在,则会覆盖可选参数:-p,–processor 将FSImage文件转换成哪种格式: (Ls|XML|FileDistribution).默认为Ls.-delimiter 可选项,用于使用D原创 2020-11-16 11:49:02 · 845 阅读 · 0 评论 -
对比测试:Apache Pulsar 与 Kafka 在金融场景下的性能分析
对比测试:Apache Pulsar 与 Kafka 在金融场景下的性能分析背景Apache Pulsar 是下一代分布式消息流平台,采用计算存储分层架构,具备多租户、高一致、高性能、百万 topic、数据平滑迁移等诸多优势。越来越多的企业正在使用 Pulsar 或者尝试将 Pulsar 应用到生产环境中。腾讯把 Pulsar 作为计费系统的消息总线来支撑千亿级在线交易。腾讯计费体量庞大,要解决的核心问题就是必须确保钱货一致。首先,保证每一笔支付交易不出现错账,做到高一致、高可靠。其次,保证计费承载的转载 2020-10-12 11:38:14 · 566 阅读 · 0 评论 -
sparkstreaming 1.6自定义kafka分区
需先在sparkConf新增以下三个自定义配置项://是否开启自动重分区分区sparkConf.set(“enable.auto.repartition”,“true”)//避免不必要的重分区操作,增加个阈值,只有该批次要消费的kafka的分区内数据大于该阈值才进行拆分sparkConf.set(“per.partition.offsetrange.threshold”,“300”)//拆分后,每个kafkardd 的分区数据量。sparkConf.set(“per.partition.afte原创 2020-07-17 17:59:40 · 641 阅读 · 0 评论 -
sparkstreaming个别task执行时间过长
1.单机差异排查通过streaming的web可看到运行的每个批的详细信息,我们注意到在运行时间上的批次里,基本都是少部分任务时间很长,大多数task还是很快的。可以看到75%的task在3秒内执行完,但是Max最大的确实1.2min,首先猜想的是机器性能差异,但是经过排查集群机器性能并无区别,且每台机器上执行的task比较均衡,基本上排除了单机性能差异问题,且在耗时较长的批次中,可以发现耗时长的task每次回出现在不同的机器上,因此也从侧面排除了机器性能差异问题。2.网络因素排查,大部分处于RAC.原创 2020-07-17 17:49:16 · 1243 阅读 · 0 评论 -
分布式储存HDFS
hdfs数据块的复制策略?数据安全:在某个节点发生故障时,不会丢失数据备份;网络传输开销:在备份数据同步过程中,尽量减少网络传输中的带宽开销;hdfs调整块的大小会带来哪些影响?hdfs块太小,会增加程序启动的map数量,增加执行时间,对程序不好,一方面存放大量小文件会占用NameNode中大量内存来存储元数据,而NameNode的内存是有限的,不可取;另一方面文件块过小,寻址时间增...原创 2018-12-10 12:30:07 · 325 阅读 · 3 评论