spark从MySQL写入hbase_Spark如何写入HBase/Redis/MySQL/Kafka

本文探讨了在Spark中如何将数据从MySQL写入HBase、Kafka、Redis和MySQL,重点在于解决任务中使用Kafka Producer的序列化问题。通过创建一个Singleton对象并在`foreachRDD`或`map`等函数中使用,避免了直接在Executor中使用Pool或Producer,以减少资源消耗和避免序列化错误。同时,文章讨论了Executor挂掉时的数据丢失问题,指出flush时机的选择对性能和数据安全性的影响。
摘要由CSDN通过智能技术生成

一些概念

一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM.

Partition 是一个可迭代数据集合

Task 本质是作用于Partition的线程

问题

Task 里如何使用Kafka Producer 将数据发送到Kafka呢。 其他譬如HBase/Redis/MySQL 也是如此。

解决方案

直观的解决方案自然是能够在Executor(JVM)里有个Prodcuer Pool(或者共享单个Producer实例),但是我们的代码都是

先在Driver端执行,然后将一些函数序列化到Executor端执行,这里就有序列化问题,正常如Pool,Connection都是无法序列化的。

一个简单的解决办法是定义个Object 类,

譬如

object SimpleHBaseClient {private val DEFAULT_ZOOKEEPER_QUORUM = "127.0.0.1:2181"

private lazy val (table, conn) =createConnection

def bulk(items:Iterator)={

items.foreach(conn.put(_))

conn.flush....

}

......

}

然后保证这个类在map,foreachRDD等函数下使用,譬如:

dstream.foreachRDD{ rdd =>rdd.foreachPartition{iter=>SimpleHBaseClient.bulk(iter)

}

}

为什么要保证放到foreachRDD/map 等这些函数里呢?

Spark的机制是先将用户的程序作为一个单机运行(运行者是Driver),Driver通过序列化机制,将对应算子规定的函数发送到Executor进行执行。这里,foreachRDD/map 等函数都是会发送到Executor执行的,Driver端并不会执行。里面引用的object 类 会作为一个stub 被序列化过去,object内部属性的初始化其实是在Executor端完成的,所以可以避过序列化的问题。

Pool也是类似的做法。然而我们并不建议使用pool,因为Spark 本身已经是分布式的,举个例子可能有100个executor,如果每个executor再搞10个connection

的pool,则会有100*10 个链接,Kafka也受不了。一个Executor 维持一个connection就好。

关于Executor挂掉丢数据的问题,其实就看你什么时候flush,这是一个性能的权衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>