通过csv文件形式进行数据入仓的流程及脚本

1、将数据抽取插入到csv文件,写入到数据库中
2、将csv文件插入到目标数据库(这里以插入到postgresql为例):
首先在服务器上写连接pg数据脚本,
在普通用户home目录下建立文件:.pgpass,内容为ip:端口号:schema:name:pasdword
在文件目录下建立文件夹例如:Mysql2Gp,并在文件夹下建立cfg目录,用来存放配置脚本,在Mysql2Gp目录下建立文件write_to_gp111.sh ,内容为:
date
psql -d gsdw -h 数据库ip -p 端口号 -U 用户名 -f /home/gens/Mysql2Gp/cfg/$1
date
在cfg建立写入数据库脚本xxxxx.sql:
truncate table table_name;
\COPY table_name(字段名称) from ‘/data/xxxxxxxx.csv’ delimiter ‘|’ csv header;
执行脚本 sh write_to_gp111.sh xxxxx.sql即可写入数据库,注意:如果数据质量不高,可能会报错,具体问题具体分析
3、添加调度任务(azkaban调度器)例如:
type=command
command= su - gens -c “sh /home/gens/Mysql2Gp/write_to_gp111.sh xxxxxx.sql”

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据入仓流程是将数据从不同的源头收集并加载到数据仓库数据湖中以供分析和查询使用的过程。下面是数据入仓流程的一般步骤: 1. 确定需求:首先,您需要明确您的数据入仓需求,包括要收集和加载的数据类型、来源以及用途。 2. 数据采集:根据需求,选择合适的数据采集工具和方法来从各种数据源中提取数据。这可以包括数据库、API、日志文件、传感器等。 3. 数据清洗与转换:在将数据加载到数据仓库之前,通常需要对数据进行清洗和转换。这包括处理缺失值、去重、格式转换、标准化等操作,以确保数据的准确性和一致性。 4. 数据加载:将经过清洗和转换的数据加载到数据仓库中。这可以使用ETL(抽取、转换、加载)工具来完成,例如Apache Spark、Talend、Informatica等。 5. 数据建模:在数据仓库中对数据进行建模,以支持更高效的查询和分析。这可以包括维度建模、星型模型、雪花模型等。 6. 数据质量和验证:进行数据质量检查和验证,确保数据的完整性、准确性和一致性。这可以包括验证数据的完整性约束、执行数据质量规则等。 7. 数据索引和优化:为了提高查询性能,可以根据查询需求创建索引、分区、优化表结构等。 8. 数据安全和权限管理:确保数据的安全性,使用适当的权限管理控制对数据的访问和操作。 常用的数据入仓工具包括: - Apache Kafka:用于实时数据流的高性能分布式消息队列。 - Apache Nifi:用于数据采集、转换和加载的可视化工具。 - Apache Airflow:用于调度和管理数据工作流的开源工具。 - AWS Glue:亚马逊提供的完全托管的ETL服务,用于数据采集、转换和加载。 - Talend:功能强大的开源ETL工具,支持多种数据源和目标。 这些工具可以根据您的需求和环境选择使用。请注意,具体的工具选择和流程步骤可能会根据您的具体情况而有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值