Flink stream load 方式写入doris

最新推荐文章于 2024-08-07 09:28:29 发布

黄瓜炖啤酒鸭

最新推荐文章于 2024-08-07 09:28:29 发布

阅读量4.8k

点赞数 2

分类专栏： apache doris Flink 文章标签： stream load Flink 写入doris

本文链接：https://blog.csdn.net/qq_31866793/article/details/112977943

版权

本文档详细介绍了如何使用Flink通过stream load方式将数据写入Doris，包括各种导入参数的设置，如column_separator、columns、where、timeout等，并提供了Flink的代码实践，演示了数据导入过程，特别提到了merge_type参数在数据删除和追加中的应用，以及版本兼容性问题。

摘要由CSDN通过智能技术生成

1，文档

Name: 'STREAM LOAD'
Description:
NAME:
stream-load: load data to table in streaming

SYNOPSIS
curl --location-trusted -u user:passwd [-H ""...] -T data.file -XPUT http://fe_host:http_port/api/{db}/{table}/_stream_load

DESCRIPTION
该语句用于向指定的 table 导入数据，与普通Load区别是，这种导入方式是同步导入。
这种导入方式仍然能够保证一批导入任务的原子性，要么全部数据导入成功，要么全部失败。
该操作会同时更新和此 base table 相关的 rollup table 的数据。
这是一个同步操作，整个数据导入工作完成后返回给用户导入结果。
当前支持HTTP chunked与非chunked上传两种方式，对于非chunked方式，必须要有Content-Length来标示上传内容长度，这样能够保证数据的完整性。
另外，用户最好设置Expect Header字段内容100-continue，这样可以在某些出错场景下避免不必要的数据传输。

OPTIONS
用户可以通过HTTP的Header部分来传入导入参数

label: 一次导入的标签，相同标签的数据无法多次导入。用户可以通过指定Label的方式来避免一份数据重复导入的问题。
当前Palo内部保留30分钟内最近成功的label。

column_separator：用于指定导入文件中的列分隔符，默认为\t。如果是不可见字符，则需要加\x作为前缀，使用十六进制来表示分隔符。
如hive文件的分隔符\x01，需要指定为-H "column_separator:\x01"

columns：用于指定导入文件中的列和 table 中的列的对应关系。如果源文件中的列正好对应表中的内容，那么是不需要指定这个字段的内容的。
如果源文件与表schema不对应，那么需要这个字段进行一些数据转换。这里有两种形式column，一种是直接对应导入文件中的字段，直接使用字段名表示；
一种是衍生列，语法为 `column_name` = expression。举几个例子帮助理解。
例1: 表中有3个列“c1, c2, c3”，源文件中的三个列一次对应的是"c3,c2,c1"; 那么需要指定-H "columns: c3, c2, c1"
例2: 表中有3个列“c1, c2, c3", 源文件中前三列依次对应，但是有多余1列；那么需要指定-H "columns: c1, c2, c3, xxx";
最后一个列随意指定个名称占位即可
例3: 表中有3个列“year, month, day"三个列，源文件中只有一个时间列，为”2018-06-01 01:02:03“格式；
那么可以指定-H "columns: col, year = year(col), month=month(col), day=day(col)"完成导入

where: 用于抽取部分数据。用户如果有需要将不需要的数据过滤掉，那么可以通过设定这个选项来达到。
例1: 只导入大于k1列等于20180601的数据，那么可以在导入时候指定-H "where: k1 = 20180601"

max_filter_ratio：最大容忍可过滤（数据不规范等原因）的数据比例。默认零容忍。数据不规范不包括通过 where 条件过滤掉的行。

partitions: 用于指定这次导入所设计的partition。如果用户能够确定数据对应的partition，推荐指定该项。不满足这些分区的数据将被过滤掉。
比如指定导入到p1, p2分区，-H "partitions: p1, p2"

timeout: 指定导入的超时时间。单位秒。默认是 600 秒。可设置范围为 1 秒 ~ 259200 秒。

strict_mode: 用户指定此次导入是否开启严格模式，默认为关闭。开启方式为 -H "strict_mode: true"。

timezone: 指定本次导入所使用的时区。默认为东八区。该参数会影响所有导入涉及的和时区有关的函数结果。

exec_mem_limit: 导入内存限制。默认为 2GB。单位为字节。

format: 指定导入数据格式，默认是csv，支持json格式。

jsonpaths: 导入json方式分为：简单模式和精准模式。
简单模式：没有设置jsonpaths参数即为简单模式，这种模式下要求json数据是对象类型，例如：
{"k1":1, "k2":2, "k3":"hello"}，其中k1，k2，k3是列名字。

匹配模式：用于json数据相对复杂，需要通过jsonpaths参数匹配对应的value。

strip_outer_array: 布尔类型，为true表示json数据以数组对象开始且将数组对象中进行展平，默认值是false。例如：
[
{"k1" : 1, "v1" : 2},
{"k1" : 3, "v1" : 4}
]
当strip_outer_array为true，最后导入到doris中会生成两行数据。

json_root: json_root为合法的jsonpath字符串，用于指定json document的根节点，默认值为""。
merge_type: 数据的合并类型，一共支持三种类型APPEND、DELETE、MERGE 其中，APPEND是默认值，表示这批数据全部需要追加到现有数据中，DELETE 表示删除与这批数据key相同的所有行，MERGE 语义需要与delete 条件联合使用，表示满足delete 条件的数据按照DELETE 语义处理其余的按照APPEND 语义处理，示例：`-H "merge_type: MERGE" -H "delete: flag=1"`
delete: 仅在 MERGE下有意义，表示数据的删除条件

RETURN VALUES
导入完成后，会以Json格式返回这次导入的相关内容。当前包括一下字段
Status: 导入最后的状态。
Suc

最低0.47元/天解锁文章

黄瓜炖啤酒鸭

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
10
评论
Flink stream load 方式写入doris

1，文档Name: 'STREAM LOAD'Description: NAME: stream-load: load data to table in streaming SYNOPSIS curl --location-trusted -u user:passwd [-H ""...] -T data.file -XPUT http://fe_host:http_port/api/{db}/{table}/_stream_load ...
复制链接

扫一扫

专栏目录