自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 sparkstream窗口内消费kafka相同时间内相同条数速率不同,性能不一样

假设有100w条数据,sparkstream窗口时间片为5分钟,Kafka生产数据2种场景:1、Kafka在5分钟平均每分钟生产2w条,5分钟共100w;2、5分钟内,一次性生产100w条。其中后者sparkstream处理的时间远远比前者快.为啥?speakstream窗口是5分钟,处理总数也是一样的,是不是也就是意味着处理时间应该没啥偏差吧,不因由Kafka生产的速率改变而性能不一样吧!...

2020-04-29 13:04:18 288

原创 sparkstream窗口消费Kafka性能不一样

假设有100w条数据,sparkstream窗口时间片为5分钟,Kafka生产数据2种场景:1:Kafka在5分钟平均每分钟生产20000条,5分钟共100w;2:5分钟内,一次性生产100w条。其中后者sparkstream处理的时间远远比前者快.为啥?speakstream窗口是5分钟也就是意味着处理的中条数是一样的,不因由Kafka生产的速率改变儿性能不一样吧。...

2020-04-29 12:41:21 253

原创 HBase数据模型设计

有个这样的需求,我的HBase一个表对应一个省份人群信息(存储该省份的所有人群手机号码),需要在5分钟内能将全省的数据入库到HBase中。其中该表设计如下:其中rowKey:基站标识+时间(yyyyMMdd)columnFamily:peoFamily;column:00/05/10/15...(每5分钟时间片),一条rowKey对应12个列,即1小时有12个5分钟v...

2020-04-24 21:45:38 276

原创 怎么使用spark拆分文件?或者怎么拆分rdd?

spark拆分文件?或者怎么拆分rdd?

2020-04-11 22:03:57 1092

原创 spark saveAsTextfile 方法保存的文件part-00000 是空文件

在使用spark读取上一个rdd实用saveAsTextFile写的文件时,没有问题并且读取的part文件也没有null文件(出了SUCCESS文件),在map过滤后再saveAsTextFile到另外一个目录时,有null的part-0000文件生成,请问如何过滤掉这种文件,谢谢!...

2020-04-10 12:54:55 1653 4

原创 SparkStream在使用mapWithState时,无论设置timeout为多久,过了该超时时间后,该批信令数据依然会发送,过了9分钟后才会移除, 感觉该时间范围没有起到作用。

问题描述:在使用mapWithState时,无论设置timeout为多久,过了该超时时间后,该批信令数据依然会发送,过了9分钟后才会移除,感觉该时间范围没有起到作用。业务场景:一批业务实时信令数据,如果在预置时间范围内(即该用户保持沉默)没有上报,则系统会认为该用户一直在当前位置(即会将该用户的信令重复上报),超过该时间范围则将其移除。业务实现:通过使用mapWithState以及设...

2020-03-26 00:00:01 751 5

css+div,绝对适合!!!!!!!!

可以是网页布局结构更加清晰!可以是网页布局结构更加清晰!可以是网页布局结构更加清晰!可以是网页布局结构更加清晰!

2009-12-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除