数据集成开发平台近期上线了新功能—加载外部数据资源,通过同学们的反馈发现部分同学对使用的方式并不十分了解,因此本期对此功能进行一下详细的介绍。
我们在数据开发工作中经常会遇到需要将本地数据加载至线上临时表的情况,加载外部数据源功能可以帮助大家在数据集成开发平台中轻松完成此项操作。
使用步骤:
1. 在数据开发界面中的数据库列表中选择dev库
2. 创建临时表,并指定 '\t' 为表的分隔符
3. 准备utf-8编码的txt文本,用tab分隔每一列
4. 点击“加载外部资源”按钮,选择表和文件进行上传
注意事项:
1. 此功能只支持向dev库中建立的临时表加载数据,如果没有在数据库列表中选中dev库,则无法点击“加载外部资源按钮”,
在选择加载的目标表时,也无法选择dev库以外的表
2. 由于元数据抓取存在时间间隔,新创建的表最多需要等待十五分钟的时间才可以选择,如果同学们在列表中没有发现刚刚建立的表,请耐心稍作等待
3. Hive默认的分隔符是 \001,如果在建表时不指定分隔符为\t,在加载数据后就会出现串列的现象,导致整张表无法使用。
因此,需要在建表语句末尾添加 row format delimited fields terminated by '\t' 语句指定分隔符。
这点容易在建表时疏忽,请大家格外注意。
4. 上传文本请使用utf-8编码的txt文本,用tab分隔每一列,使用其他编码会导致加载的中文内容乱码。
5. 上传文件大小的上线为 50M,如文件超过此大小请切分文件并分别加载多张临时表中
6. 向同一表中多次加载数据,新加载的数据会覆盖原来的数据,而不是追加。
7. 使用crt进行过加载操作的同学可能遇到过加载后表中的首行首列内容会出现乱码或者多出字符的问题,我们在“加载外部资源”的功能中修复了此问题。