在Spark Streaming中使用Direct方式接收Kafka主题数据,使用DStream完成词频统计
总体介绍:Direct方式采用Kafka简单的consumer api方式来读取数据,这种方法不再需要专门Receiver来持续不断读取数据。当batch任务触发时,由Executor读取数据,并参与其他Executor的数据计算过程中去。driver老决定读取多少offsets,并将offsets交由checkpoints来维护。将触发下次batch任务,再由Executor读取Kafka数据并计算。Direct方式的优点:1、简化并行读取:如果要读取多partition,不需要创建多个输入DStre




