spark的那些坑

申明:所有环境均在本地

<spark-streaming>

1. 在本地运行读取kafka的时候

  spark.master should be set as local[n], n > 1 in local mode if you have receivers to get data,
  otherwise Spark jobs will not get resources to process the received data.  
 
2. action的执行时间:  requirement failed: No output operations registered, so nothing to execute
   只有包含action方法才会被真正执行,执行方式懒加载.具体有 reduce(),collect(),count(),first(),take()
   saveAsTextFile(path),foreach(),countByKey()等...

3. 如果从kafka读不到消息,则不会处理kafkaStream相关的方法.直接进入下一步.
 
4. 读取kafka消息的两种方法:
    @1 Receiver-based Approach  通过 KafkaUtils.createStream().不能控制处理消息的并行度.only one receiver.
    @2 Direct Approach              通过 KafkaUtils.createDirectStream()创建.好处Simplified Parallelism(提供消息处理并行度)
今天暂时先到这儿...
 
   

转载于:https://www.cnblogs.com/yimapingchuan/p/5381696.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值