Apache Doris 02|导入数据遇到的问题

1、broker load 数据导入失败

load label example_db.stuscore (data infile ("hdfs://devtest4.com:50070/tmp/testdata/stuscore.txt") into table stuscore) with broker 'broker_name' ("username"="root","password"="");

查看数据导入状态。

show load order by createtime desc limit 1\G

ErrorMsg: type:ETL_RUN_FAIL; msg:errCode = 2, detailMessage = Broker list path failed. path=hdfs://devtest4.com:50075/tmp/test1/tabledata1,broker=TNetworkAddress(hostname:192.168.11.37, port:8000),msg=unknown error when get file status, cause by: Call From devtest1.com/192.168.11.37 to devtest4.com:50075 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

显示数据路径失败,连接拒绝。先查看hdfs使用的端口是不是50070

#获取端口号
hdfs getconf -confKey fs.default.name
#查看文件列表
hdfs dfs -ls hdfs://devtest4.com:8020/

真的是端口问题呀。再次执行

load label example_db.stuscore (data infile ("hdfs://devtest4.com:8020/tmp/testdata/stuscore.txt") into table stuscore) with broker 'broker_name' ("username"="root","password"="");

 出现ErrorMsg: type:ETL_QUALITY_UNSATISFIED; msg:quality not good enough to cancel

数据质量问题,指定数据的分隔符,插入列等信息。使用desc table1 查看数据列字段。

LOAD LABEL example_db.stuscore01 ( DATA INFILE("hdfs://devtest4.com:8020/tmp/testdata/stuscore.txt") INTO TABLE stuscore COLUMNS TERMINATED BY "," (id,name,score) SET (id=id,name=name,score=score)) WITH BROKER 'broker_name' ("username"="root","password"="") PROPERTIES ("timeout" = "3600");

State: FINISHED。数据导入成功。
 

2、因为数据质量问题导入不成功

使用steam load方式导入,在导入时设置max_filter_ratio,默认是零容忍错误导入。

curl --location-trusted -u root  -H "label:bigtable20210617_01" -H "column_separator:\t" -H "max_filter_ratio:0.9" -T bigtable http://devtest1.com:18030/api/example_db/bigtable/_stream_load
 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于 Apache Doris数据仓库平台架构设计如下: 1. 架构模式: - 采用分布式架构模式,将数据仓库划分为多个节点,每个节点可以独立存储和处理数据,同时支持横向扩展,能够处理大规模的数据量和并发请求。 2. 数据存储层: - 使用分布式文件系统(如HDFS)存储数据数据按照数据表的划分进行存储,支持数据的分片和复制,提高数据的可靠性和可用性。 - 数据以列式存储的方式存储,提高查询效率。 - 支持数据的压缩和索引,降低存储空间和提高查询效率。 3. 元数据管理: - 使用元数据管理系统(如MySQL)存储数据的元信息,包括表结构、分区、数据位置等。 - 元数据管理系统支持水平扩展,保证元数据的一致性和高可用性。 4. 查询引擎: - 使用分布式查询引擎,支持SQL语法,能够高效地执行复杂的数据查询和分析操作。 - 支持预编译和查询优化技术,提高查询性能。 5. 数据加载和导出: - 支持多种方式的数据加载和导出,如批量导入、实时流入、增量导入、导出到外部系统等。 - 支持数据的转换和清洗,提高数据的质量和一致性。 6. 安全性和权限管理: - 支持访问控制,可以对用户和角色进行权限管理,确保数据的安全性和合规性。 - 支持数据加密和身份认证,保护数据的机密性和完整性。 7. 可视化和监控: - 提供用户友好的可视化界面,方便用户管理和操作数据仓库。 - 支持实时监控和告警功能,及时发现和解决系统故障和性能问题。 总之,基于 Apache Doris数据仓库平台架构设计具备高可扩展性、高性能和高可靠性的特点,可以满足大规模数据处理和查询的需求,并提供丰富的功能和工具支持,帮助用户实现高效的数据分析和决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值