- 博客(4)
- 收藏
- 关注
原创 Kafka为什么这么快 sequence IO、PageCache、SendFile的应用详解
大家都知道Kafka是将数据存储于磁盘的,而磁盘读写性能往往很差,但Kafka官方测试其数据读写速率能达到600M/s,那么为什么Kafka性能会这么高呢? 首先producer往broker发送消息时,采用batch的方式即批量而非一条一条的发送,这种方式可以有效降低网络IO的请...
2021-12-20 10:59:51 700
转载 spark和 flink对比
Spark缺点无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看作是批处理的一种特殊形式,每次接...
2020-06-27 10:36:32 297
原创 Pyspark 连接 mysql 各种问题
关于 PySpark 提交集群运行原先代码如下import osimport sysproject = 'OneStopDataPlatformPY' # 工作项目根目录path = os.getcwd().split(project)[0] + projectsys.path.append(path)print(path)from pyspark.sql import Spa...
2020-02-25 14:43:07 495
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人