验证环境:2台master,8台Slave,24coreCPU,单核2G,128G内存,网络10GE
1.在kafka配置文件Server.properties中将log.dir设置为分布在不同磁盘上的多个目录,将不同topic和分区在不同的磁盘上
2.将Kafka启动脚本中的KAFKA_HEAP_OPTS选项中的-Xmx512M修改为-Xmx4G
3.kafka的生产者与broker,消费者与broker放在不同的节点上
4.结果输出方式,写HDFS之前,将结果进行一定合并减少HDFS写的频率
5.如果对SparkStreaming实时性要求不高,且内存充足,可以把APP batch时间间隔增大