structure streaming 使用小结1-效率(数据更新速度以及优化)

版本spark3.0.0,总结来源官网以及开发过程中的实验所得。

背景,做的一个实时项目,通过测试发现数据更新速度在15s左右,完全不能满足要求,领导要求查找可以优化的地方,对整个链路进行拆分研究,优化代码

链路为kafka->structure streaming->hbase

测试方法:

虚机

--num-executors 10 --executor-cores 3 \
--driver-memory 4g --executor-memory 6g \
--total-executor-cores 30 \

测试方法,数据源为kafka,输出写入hbase。

造数采用kafka批量写入数据,structure streaming进行消费处理,处理逻辑,关联一个维表,然后统计条数。区别于官网的worldcount。

代码结构

def main(args: Array[String]): Unit = {
 //创建spark session
    val spark = SparkSession.builder
      .appName("jcTables_37")
      //      .master("local[4]")
      .config("spark.sql.warehouse.dir",directory1)
      .getOrCreate()

 //读取mysql的维表数据
    val url = MysqlUtil.url
    val properties = MysqlUtil.properties
    val tn1 = "b_mapping_siteclerk"
    spark.read.jdb
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值