MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南

摘要: MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http request,多个 block 的上传可以并发而且是原子的,一次同步请求要么成功要么失败,不会污染其他的 block。这种设计对于服务端来讲十分简洁,但是也把记录状态做 fa.

本文用到的

阿里云数加-大数据计算服务MaxCompute产品地址: https://www.aliyun.com/product/odps
MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http request,多个 block 的上传可以并发而且是原子的,一次同步请求要么成功要么失败,不会污染其他的 block。这种设计对于服务端来讲十分简洁,但是也把记录状态做 failover 的工作交给了客户端。

用户在使用 Tunnel SDK 编程时,需要对 block 这一层的语义进行认知,并且驱动数据上传的整个过程[1],并且自己进行容错,毕竟『网络错误是正常而不是异常』。由于用户文档中并没有强调这一点的重要性,导致很多用户踩了坑,一种常见的出错场景是,当客户端写数据的速度过慢,两次 write 的间隔超时[2],导致整个 block 上传失败。

High Level API

MaxCompute Java SDK 在 0.21.3-public 之后新增了 BufferredWriter 这个更高层的 API,简化了数据上传的过程,并且提供了容错的功能。 BufferedWriter 对用户隐藏了 block 这个概念,从用户角度看,就是在 session 上打开一个 writer 然后往里面写记录即可:

RecordWriter writer = null ; try { int i = 0 ; writer = uploadSession.openBufferedWriter(); Record product = uploadSession.newRecord(); for (String item : items) { product.setString( "name" , item); product.setBigint( "id" , i); writer.write(product); i += 1 ; }} finally { if (writer != null ) { writer.close(); }}uploadSession.commit();

具体实现时 BufferedWriter 先将记录缓存在客户端的缓冲区中,并在缓冲区填满之后打开一个 http 连接进行上传。BufferedWriter 会尽最大可能容错,保证数据上传上去。
  • 由于屏蔽了底层细节,这个接口可能并不适合数据预划分、断点续传、分批次上传等需要细粒度控制的场景。

多线程上传示例

多线程上传时,每个线程只需要打开一个 writer 往里面写数据就行了。

class UploadThread extends Thread { private UploadSession session; private static int RECORD_COUNT = 1200 ; public UploadThread(UploadSession session) { this .session = session; } @Override public void run() { RecordWriter writer = up.openBufferedWriter(); Record r = up.newRecord(); for ( int i = 0 ; i < RECORD_COUNT; i++) { r.setBigint( 0 , i); writer.write(r); } writer.close(); }}; public class Example { public static void main(String args[]) { // 初始化 MaxCompute 和 tunnel 的代码 TableTunnel.UploadSession uploadSession = tunnel.createUploadSession(projectName, tableName); UploadThread t1 = new UploadThread(up); UploadThread t2 = new UploadThread(up); t1.start(); t2.start(); t1.join(); t2.join(); uploadSession.commit(); }

更多控制

重试策略

由于底层在上传出错时会回避一段固定的时间并进行重试,但如果你的程序不想花太多时间在重试上,或者你的程序位于一个极其恶劣的网络环境中,为此 TunnelBufferedWriter 允许用户配置重试策略。

用户可以选择三种重试回避策略:指数回避(EXPONENTIAL_BACKOFF)、线性时间回避(LINEAR_BACKOFF)、常数时间回避(CONSTANT_BACKOFF)。

例如下面这段代码可以将,write 的重试次数调整为 6,每一次重试之前先分别回避 4s、8s、16s、32s、64s 和 128s(从 4 开始的指数递增的序列)。

RetryStrategy retry = new RetryStrategy( 6 , 4 , RetryStrategy .BackoffStrategy.EXPONENTIAL _BACKOFF)writer = (TunnelBufferedWriter) uploadSession .openBufferedWriter () ; writer .setRetryStrategy (retry) ;

缓冲区控制

如果你的程序对 JVM 的内存有严格的要求,可以通过下面这个接口修改缓冲区占内存的字节数(bytes):

writer.setBufferSize( 1024 *1024 );

默认配置每一个 Writer 的 BufferSize 是 10 MiB。TunnelBufferedWriter 一次 flush buffer 的操作上传一个 block 的数据[3]。

多个进程共享 Session

由于一个 Session 的上传状态是通过维护一个 block list 实现的,对于多线程程序来讲,通过锁很容易实现资源的分配。但对于两个进程空间里的程序想要复用一个 Session 时,必须通过一种机制对资源进行隔离。

具体地,在 getUploadSession 的时候,必须指定这个共享这个 Session 的进程数目,以及一个用来区分进程的 global id:

//程序 1 :这个 session 将被两个 writer 共享,我是其中第 0 个TableTunnel .UploadSession up = tunnel .getUploadSession (projectName, tableName, sid, 2 , 0 ) ; writer = session .openBufferedWriter () ; //程序 1 :这个 session 将被两个 writer 共享,我是其中第 1 个TableTunnel .UploadSession up = tunnel .getUploadSession (projectName, tableName, sid, 2 , 1 ) ; writer = session .openBufferedWriter () ;

Notes

[1] 一次完整的上传流程通常包括以下步骤:

先对数据进行划分 
为每个数据块指定 block id,即调用 openRecordWriter(id) 
然后用一个或多个线程分别将这些 block 上传上去 
并在某个 block 上传失败以后,需要对整个 block 进行重传 
在所有 block 都上传以后,向服务端提供上传成功的 blockid list 进行校验,即调用 session.commit([1,2,3,…]) 

[2] 因为使用长连接,服务端有计时器判断是否客户端是否 alive

[3] block 在服务端有 20000 个的数量上限,如果 BufferSize 设得太小会导致 20000 个 block 很快被用光

[4] Session的有效期为24小时,超过24小时会导致数据上传失败


阅读更多干货好文,请关注扫描以下二维码:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值