7.2 数据的批量加载

最新推荐文章于 2024-08-28 18:00:00 发布

万俟傲霜

最新推荐文章于 2024-08-28 18:00:00 发布

阅读量260

点赞数

分类专栏：数据清洗文章标签： etl

本文链接：https://blog.csdn.net/qq_53646158/article/details/128056902

版权

数据清洗专栏收录该内容

23 篇文章 0 订阅

订阅专栏

本文介绍了在大量数据迁移时，如何避免使用DML操作导致的效率降低问题，转而采用批量加载方法。以Kettle工具为例，详细阐述了如何通过该工具将weibo_user.csv文件中的数据高效地导入到weibo_user数据表中，包括创建转换、配置表输入和表输出控件的步骤，并展示了最终的结果和表结构。

摘要由CSDN通过智能技术生成

通常，对于几千条甚至几万条记录的数据迁移而言，采取DML（数据操纵语言）的INSERT语句能够很好地将数据迁移到目标数据库中。然而，当数据迁移量过于庞大时，就不能使用INSERT语句了，因为执行INSERT,UPDATE以及DELETE语句的操作都会生成事务日志，事务日志的生成会减慢加载的速度，故需要针对数据采取批量加载操作。

下面通过kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中，具体实现步骤如下：

weibo_user.csv数据展示：

一，创建转换

二，配置“表输入”控件

三，配置“表输出”控件

"主选项"选项卡

“数据库字段”选项卡

四，查看结果及表weibo_user的创建

结果

表weibo_user的创建

create table weibo_user(
	user_id int(20),
    user_name char(40),
    gender char(10),
    message varchar(400),
    post_num int(6),
    follower_num int(15)
    );