笔记
梦在NASA
学生
展开
-
sparkstream窗口内消费kafka相同时间内相同条数速率不同,性能不一样
假设有100w条数据,sparkstream窗口时间片为5分钟,Kafka生产数据2种场景:1、Kafka在5分钟平均每分钟生产2w条,5分钟共100w;2、5分钟内,一次性生产100w条。其中后者sparkstream处理的时间远远比前者快.为啥?speakstream窗口是5分钟,处理总数也是一样的,是不是也就是意味着处理时间应该没啥偏差吧,不因由Kafka生产的速率改变而性能不一样吧!...原创 2020-04-29 13:04:18 · 275 阅读 · 0 评论 -
sparkstream窗口消费Kafka性能不一样
假设有100w条数据,sparkstream窗口时间片为5分钟,Kafka生产数据2种场景:1:Kafka在5分钟平均每分钟生产20000条,5分钟共100w;2:5分钟内,一次性生产100w条。其中后者sparkstream处理的时间远远比前者快.为啥?speakstream窗口是5分钟也就是意味着处理的中条数是一样的,不因由Kafka生产的速率改变儿性能不一样吧。...原创 2020-04-29 12:41:21 · 245 阅读 · 0 评论 -
HBase数据模型设计
有个这样的需求,我的HBase一个表对应一个省份人群信息(存储该省份的所有人群手机号码),需要在5分钟内能将全省的数据入库到HBase中。其中该表设计如下:其中rowKey:基站标识+时间(yyyyMMdd)columnFamily:peoFamily;column:00/05/10/15...(每5分钟时间片),一条rowKey对应12个列,即1小时有12个5分钟v...原创 2020-04-24 21:45:38 · 272 阅读 · 0 评论 -
怎么使用spark拆分文件?或者怎么拆分rdd?
spark拆分文件?或者怎么拆分rdd?原创 2020-04-11 22:03:57 · 1083 阅读 · 0 评论 -
spark saveAsTextfile 方法保存的文件part-00000 是空文件
在使用spark读取上一个rdd实用saveAsTextFile写的文件时,没有问题并且读取的part文件也没有null文件(出了SUCCESS文件),在map过滤后再saveAsTextFile到另外一个目录时,有null的part-0000文件生成,请问如何过滤掉这种文件,谢谢!...原创 2020-04-10 12:54:55 · 1643 阅读 · 4 评论