mssql写入mysql_某社区600万用户数据导入MYSQL、MSSQL、Oracle数据库方法

最新推荐文章于 2022-07-05 01:01:42 发布

LucasCYGu

最新推荐文章于 2022-07-05 01:01:42 发布

阅读量173

点赞数

文章标签： mssql写入mysql

本文链接：https://blog.csdn.net/weixin_34771903/article/details/113417083

版权

1.导入MySql数据库

1.1.LOAD DATA INFILE语法

因为获得的数据库文件是一个文本文件www.csdn.net.sql，因此需要用到mysql中的LOAD DATA INFILE命令，LOAD DATA INFILE的语法结构如下：

View Code

LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name'

[REPLACE | IGNORE]

INTO TABLEtbl_name[CHARACTER SET charset_name]

[{FIELDS | COLUMNS}

[TERMINATED BY 'string']

[[OPTIONALLY] ENCLOSED BY 'char'][ESCAPED BY 'char']][LINES

[STARTING BY 'string']

[TERMINATED BY 'string']][IGNORE number LINES]

[(col_name_or_user_var,...)]

[SET col_name = expr,...]

1.2.创建存放数据的表

观察文本结构，发现每一行都是如下所示结构：

username # password # email

中间用"#"进行分割。因此我们创建的表必定含有username，password和email字段，但是我们还必须为表添加一个主键列，并让其自动增长，这样我们在添加数据的时候就不需要手动添加主键列。因此表结构如下：

View Code

CREATE TABLE`csdnuser` (

`id`int(11) NOT NULLAUTO_INCREMENT,

`username`varchar(255) DEFAULT NULL,

`password`varchar(255) DEFAULT NULL,

`email`varchar(255) DEFAULT NULL,PRIMARY KEY(`id`)

) ENGINE=MyISAM DEFAULT CHARSET=utf8;

注意：MySQL中MyISAM引擎与InnoDB引擎有一些区别，但是这并不是本篇博客的主题，因此略过不提。

1.3.导入数据

在创建表以后，我们就可以通过load data infile命令导入数据了，具体的导入命令如下：

load data local infile 'd:\\www.csdn.net.sql' into table csdnuser2 fields terminated by '#' (username,password,email);

大概运行了1分钟左右就导入完成了，导入完成以后显示：

Query OK, 6428632 rows affected, 2030 warnings (54.47sec)

Records:6428632 Deleted: 0 Skipped: 0 Warnings: 295

注意：

安装的MySQL5.1默认的数据库文件存放的路径是：C:\Documents and Settings\All Users\Application Data\MySQL 中，比如我们的csdndb就在路径C:\Documents and Settings\All Users\Application Data\MySQL\MySQL Server 5.1\data\csdndb当中。如果经常恢复系统的话，放在c盘不安全，可以在安装的时候修改安装路径。如下图所示：

2.导入Sql Server数据库

2.1.BULK INSERT语法

在Sql Server中，使用BULK INSERT命令导入数据，该命令以用户指定的格式将数据文件导入到数据库表或视图中。BULK INSERT语法结构如下：

View Code

BULK INSERT

[database_name . [ schema_name] . | schema_name . ] [table_name | view_name]

FROM 'data_file'

[WITH

(

[ [ ,] BATCHSIZE =batch_size ][[ ,]CHECK_CONSTRAINTS ][[ ,] CODEPAGE = { 'ACP' | 'OEM' | 'RAW' | 'code_page'} ][[ ,] DATAFILETYPE ={'char' | 'native'| 'widechar' | 'widenative'} ][[ ,] FIELDTERMINATOR = 'field_terminator'][[ ,] FIRSTROW =first_row ][[ ,]FIRE_TRIGGERS ][[ ,] FORMATFILE = 'format_file_path'][[ ,]KEEPIDENTITY ][[ ,]KEEPNULLS ][[ ,] KILOBYTES_PER_BATCH =kilobytes_per_batch ][[ ,] LASTROW =last_row ][[ ,] MAXERRORS =max_errors ][[ ,] ORDER ( { column [ASC | DESC] } [,...n]) ][[ ,] ROWS_PER_BATCH =rows_per_batch ][[ ,] ROWTERMINATOR = 'row_terminator'][[ ,]TABLOCK ][[ ,] ERRORFILE = 'file_name']

)]

2.2. 创建数据库表

View Code

if exists(select * from sysobjects where name = 'csdn1')drop tablecsdn1create tablecsdn1(--id int identity(1,1) primary key,

username varchar(50) not null,[password] varchar(50) not null,

emailvarchar(50) not null)

2.3.使用bulk insert导入数据

View Code

bulk insertcsdn1from 'D:\www.csdn.net.sql'

with(--FORMATFILE = 'C:\BCPFORMAT.xml',

--FirstRow --default 1

--KEEPIDENTITY,

fieldterminator = '#',

rowterminator= '\n')

(6428632 行受影响)，耗时：00:02:00

其中fieldterminator = '#',表示列分隔符，rowterminator = '\n'表示行分隔符。

2.4.添加主键列

上面的操作虽然将数据导入到了数据库中，但是我们会发现数据库表csnd1没有主键列，那么如果我们在表中添加一个www.csdn.net.sql文件中没有的主键列以后，该如何进行数据库导入呢？经过多次测试，无法使用原来的bulk insert命令进行导入，但是可以用类似bulk的命令进行导入。

首先创建带主键id的csdnuser表：

View Code

--创建csdnuser表

if exists(select * from sysobjects where name = 'csdnuser')drop tablecsdnusercreate tablecsdnuser(

idint identity(1,1) primary key,

usernamevarchar(50) not null,[password] varchar(50) not null,

emailvarchar(50) not null)

然后使用如下命令进行导入：

View Code

--导入数据

INSERT INTO csdnuser([username],[password],[email])SELECT * FROM OPENROWSET(BULK 'D:/www.csdn.net.sql',

FORMATFILE='d:/BCPFORMAT.xml')AS T;

(6428632 行受影响)，耗时：00:01:25

3.导入Oracle数据库

3.1.目标表只有三列

首先创建数据库表，我们在scott用户下创建csdn表

View Code

CREATE TABLE"SCOTT"."CSDN"

(

"USERNAME"VARCHAR2(256BYTE),

"PASSWORD"VARCHAR2(256BYTE),

"EMAIL"VARCHAR2(256BYTE)

)

创建控制文件D:\www.csdn.net.sql

View Code

UNRECOVERABLELOAD DATA INFILE 'D:\www.csdn.net.sql'

INSERT into tableCSDN

fields terminatedby '#'(

USERNAME,

PASSWORD,

)

打开cmd命令行，使用sqlldr命令进行导入，导入命令如下：

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn.ctrl DIRECT=TRUElog=resulthis.out

输出的日志文件为resulthis.out，他在C:\Users\xuwei目录下，因为上述sqlldr就在该目录下运行的。resulthis.out内容如下：

View Code

SQL*Loader: Release 11.1.0.6.0 - Production on 星期一 6月 11 15:17:07 2012

控制文件: D:/ora_csdn.ctrl

数据文件: D:\www.csdn.net.sql

错误文件: D:/www.csdn.net.bad

废弃文件: 未作指定

(可废弃所有记录)

要加载的数: ALL

要跳过的数: 0

允许的错误: 50

继续: 未作指定

所用路径: 直接

加载是 UNRECOVERABLE;产生无效的恢复操作。

表 CSDN,已加载从每个逻辑记录

插入选项对此表 INSERT 生效

列名位置长度中止包装数据类型

------------------------------ ---------- ----- ---- ---- ---------------------

USERNAME FIRST * # CHARACTER

PASSWORD NEXT * # CHARACTER

EMAIL NEXT * # CHARACTER

表 CSDN:

6428632 行加载成功。

由于数据错误, 0 行没有加载。

由于所有 WHEN 子句失败, 0 行没有加载。

由于所有字段都为空的, 0 行没有加载。

在直接路径中没有使用绑定数组大小。

列数组行数: 5000

流缓冲区字节数: 256000

读取缓冲区字节数: 1048576

跳过的逻辑记录总数: 0

读取的逻辑记录总数: 6428632

拒绝的逻辑记录总数: 0

废弃的逻辑记录总数: 0

由 SQL*Loader 主线程加载的流缓冲区总数: 1370

由 SQL*Loader 加载线程加载的流缓冲区总数: 0

从星期一 6月 11 15:17:07 2012 开始运行

在星期一 6月 11 15:17:22 2012 处运行结束

经过时间为: 00: 00: 15.08

CPU 时间为: 00: 00: 05.52

通过上述日志可以发现导入耗时为29.86秒。

3.2为数据表添加主键列，并且自动增长

参考：

起初考虑为主键创建sequence，然后通过触发器来插入主键，但是一直报错。后来通过控制文件中使用sequence来插入主键完成操作。

创建数据库表:CSDNUSER

View Code

CREATE TABLE"SCOTT"."CSDNUSER"

(

"ID"int primary key not null,

"USERNAME"VARCHAR2(256),

"PASSWORD"VARCHAR2(256),

"EMAIL"VARCHAR2(256)

)

_______________________________________________

PS：2012-6-11

如果要求索引的等级BLEVEL，可以通过以下查询语句求出：

select index_name, blevel, num_rows from user_indexes where table_name = 'CSDNUSER';

但是发现查找结果为0。后来发现是因为上述建表出现问题，就是没有为primary key命名，如果没有指定primary key的名称，那么系统为默认设定一个名称，比如SYS_C0038642之类的主键名称。因此我们首先删除上述主键，然后再添加主键。

View Code

--删除主键

alter table csdnuser drop constraintSYS_C0038642;--添加主键

alter table csdnuser add constraint pk_csdnuser primary key(ID);

当然也可以直接在建表到时候就创建主键名称

View Code

CREATE TABLE"CSDNUSER"

(

"ID"INT,

"USERNAME"VARCHAR2(256),

"PASSWORD"VARCHAR2(256),

"EMAIL"VARCHAR2(256),CONSTRAINT "PK_CSDNUSER" PRIMARY KEY("ID")

)

在创建主键的时候，我们发现花费了一些时间，这是因为主键也是占据一定磁盘空间的。

————————————————————————————

创建控制文件：ora_csdn2.ctrl

View Code

load data

infile 'D:\www.csdn2.net.sql'

Append into table CSDNUSER2

fields terminated by ' # '

trailing nullcols

( ID sequence(max,1),

USERNAME,

PASSWORD,

)

在cmd中执行sqlldr命令

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn2.ctrl direct=truelog=resulthis.out

resulthis.out内容如下：

View Code

SQL*Loader: Release 11.1.0.6.0 - Production on 星期一 6月 11 15:30:00 2012

控制文件: D:/ora_csdn2.ctrl

数据文件: D:\www.csdn.net.sql

错误文件: D:/www.csdn.net.bad

废弃文件: 未作指定

(可废弃所有记录)

要加载的数: ALL

要跳过的数: 0

允许的错误: 50

继续: 未作指定

所用路径: 直接

加载是 UNRECOVERABLE;产生无效的恢复操作。

表 CSDNUSER,已加载从每个逻辑记录

插入选项对此表 INSERT 生效

TRAILING NULLCOLS 选项生效

列名位置长度中止包装数据类型

------------------------------ ---------- ----- ---- ---- ---------------------

ID SEQUENCE (MAX, 1)

USERNAME FIRST * CHARACTER

终止符字符串: ' # '

PASSWORD NEXT * CHARACTER

终止符字符串: ' # '

EMAIL NEXT * CHARACTER

终止符字符串: ' # '

表 CSDNUSER 的以下索引已处理:

索引 SCOTT.SYS_C0038642 已成功加载, 具有 6428632 个关键字

表 CSDNUSER:

6428632 行加载成功。

由于数据错误, 0 行没有加载。

由于所有 WHEN 子句失败, 0 行没有加载。

由于所有字段都为空的, 0 行没有加载。

在直接路径中没有使用绑定数组大小。

列数组行数: 5000

流缓冲区字节数: 256000

读取缓冲区字节数: 1048576

跳过的逻辑记录总数: 0

读取的逻辑记录总数: 6428632

拒绝的逻辑记录总数: 0

废弃的逻辑记录总数: 0

由 SQL*Loader 主线程加载的流缓冲区总数: 1370

由 SQL*Loader 加载线程加载的流缓冲区总数: 2

从星期一 6月 11 15:30:00 2012 开始运行

在星期一 6月 11 15:31:02 2012 处运行结束

经过时间为: 00: 01: 02.45

CPU 时间为: 00: 00: 15.32

3.3为数据表添加年龄列(2012-6-13)

如果要利用上述数据进行数据分析，会发现内容太单调了，下面我们就要为原始数据添加一个年龄age列。即将原始的"username # password # email"的数据源文件变成"username # password # email # age"的文件，age是通过java代码写入文件的一个[18,99]区间的一个随机数。随机数的生成可以参考前一篇博客：java生成指定范围的随机数。

通过java程序为www.csdn.net.sql源文件添加一列age，生成一个新的文件www.csdn22.net.sql

View Code

packageedu.sjtu.erplab.io;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileNotFoundException;importjava.io.FileOutputStream;importjava.io.FileReader;importjava.io.IOException;importjava.util.Random;public classFileAddCol {public static voidmain(String[] args) {

File file= new File("D:\\www.csdn22.net.sql");// try{

FileOutputStream fos= new FileOutputStream(file);//定义输出流

BufferedReader br = new BufferedReader(new FileReader("D:\\www.csdn.net.sql"));

String temp= null;//用于存储从文件中读取的每一行。

StringBuffer sb = new StringBuffer();//变动字符串修改使用StringBuffer

/*** 添加年龄列*/

int max=99;int min=18;

Random random= newRandom();while ((temp = br.readLine()) != null) //每次读取一行，直到文本末尾。

{//如果不清空，则会报错：java.lang.OutOfMemoryError: Java heap space

if(sb.length()>1000000)

{

fos.write(sb.toString().getBytes());

sb.delete(0, sb.length()-1);

}int s = random.nextInt(max)%(max-min+1) +min;

temp=temp+" # "+s;

sb.append(temp+ "\r\n");

}

fos.write(sb.toString().getBytes());

}catch(FileNotFoundException e) {//TODO Auto-generated catch block

e.printStackTrace();

}catch(IOException e) {//TODO Auto-generated catch block

e.printStackTrace();

}

创建数据库表：csdnuser3

View Code

CREATE TABLE"SCOTT"."CSDNUSER3"

(

"ID"INT,

"USERNAME"VARCHAR2(256),

"PASSWORD"VARCHAR2(256),

"EMAIL"VARCHAR2(256),

"AGE"INT,CONSTRAINT "PK_CSDNUSER3_ID" PRIMARY KEY("ID")

)

创建控制文件ora_csdn3.ctrl

View Code

UNRECOVERABLEloaddata

infile'D:\www.csdn22.net.sql'

insert into tableCSDNUSER3

fields terminatedby '#'trailing nullcols

( ID sequence(max,1),

USERNAME,

PASSWORD,

EMAIL,

AGE

)

打开cmd命令行，使用sqlldr命令进行导入，导入命令如下：

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn3.ctrl DIRECT=TRUElog=resulthis.out

输出的日志文件为resulthis.out，他在C:\Users\xuwei目录下，因为上述sqlldr就在该目录下运行的。resulthis.out内容如下：

View Code

控制文件: D:/ora_csdn3.ctrl

数据文件: D:\www.csdn22.net.sql

错误文件: D:/www.csdn22.net.bad

废弃文件: 未作指定

(可废弃所有记录)

要加载的数:ALL要跳过的数:0允许的错误:50继续: 未作指定

所用路径: 直接

加载是 UNRECOVERABLE;产生无效的恢复操作。

表 CSDNUSER3,已加载从每个逻辑记录

插入选项对此表INSERT生效

TRAILING NULLCOLS 选项生效

列名位置长度中止包装数据类型------------------------------ ---------- ----- ---- ---- ---------------------

ID SEQUENCE (MAX, 1)

USERNAME FIRST* CHARACTER终止符字符串:'#'PASSWORDNEXT * CHARACTER终止符字符串:'#'EMAILNEXT * CHARACTER终止符字符串:'#'AGENEXT * CHARACTER终止符字符串:'#'表 CSDNUSER3 的以下索引已处理:

索引 SCOTT.PK_CSDNUSER3_ID 已成功加载, 具有6428632个关键字

表 CSDNUSER3:6428632行加载成功。

由于数据错误,0行没有加载。

由于所有WHEN 子句失败, 0行没有加载。

由于所有字段都为空的,0行没有加载。

在直接路径中没有使用绑定数组大小。

列数组行数:5000流缓冲区字节数:256000读取缓冲区字节数:1048576跳过的逻辑记录总数:0读取的逻辑记录总数:6428632拒绝的逻辑记录总数:0废弃的逻辑记录总数:0由 SQL*Loader 主线程加载的流缓冲区总数: 1523由 SQL*Loader 加载线程加载的流缓冲区总数: 1202从星期三 6月13 12:18:21 2012开始运行

在星期三 6月13 12:18:59 2012处运行结束

经过时间为:00: 00: 38.00CPU 时间为:00: 00: 15.88

通过上述日志可以发现导入耗时为38.00秒。

提高 SQL*Loader　的性能：

一个简单而容易忽略的问题是，没有对导入的表使用任何索引和/或约束(主键)。如果这样做，甚至在使用ROWS=参数时，会很明显降低数据库导入性能。

可以添加 DIRECT=TRUE来提高导入数据的性能。当然，在很多情况下，不能使用此参数。

通过指定　UNRECOVERABLE选项，可以关闭数据库的日志。这个选项只能和 direct 一起使用。

可以同时运行多个导入任务。

常规导入与direct导入方式的区别：

常规导入可以通过使用 INSERT语句来导入数据。Direct导入可以跳过数据库的相关逻辑(DIRECT=TRUE)，而直接将数据导入到数据文件中。比如direct导入将不检测主键的唯一性。

SQLLDR用法

用法: SQLLDR keyword=value [,keyword=value,...]有效的关键字:

View Code

userid -- ORACLE username/password

control -- Control file name

log -- Log file name

bad -- Bad file name

data -- Data file name

discard -- Discard file name

discardmax -- Number of discards to allow (全部默认)

skip -- Number of logical records to skip (默认0)

load -- Number of logical records to load (全部默认)

errors -- Number of errors to allow (默认50)

rows -- Number of rows in conventional path bind array or between direct path data saves(默认: 常规路径 64, 所有直接路径)

bindsize -- Size of conventional path bind array in bytes(默认256000)

silent -- Suppress messages during run (header,feedback,errors,discards,partitions)

direct -- use direct path (默认FALSE)

parfile -- parameter file: name of file that contains parameter specifications

parallel -- do parallel load (默认FALSE)

file -- File to allocate extents from

skip_unusable_indexes -- disallow/allow unusable indexes or index partitions(默认FALSE)

skip_index_maintenance -- do not maintain indexes, mark affected indexes as unusable(默认FALSE)

readsize -- Size of Read buffer (默认1048576)

external_table -- use external table for load; NOT_USED, GENERATE_ONLY, EXECUTE(默认NOT_USED)

columnarrayrows -- Number of rows for direct path column array(默认5000)

streamsize -- Size of direct path stream buffer in bytes(默认256000)

multithreading -- use multithreading in direct path

resumable -- enable or disable resumable for current session(默认FALSE)

resumable_name -- text string to help identify resumable statement

resumable_timeout -- wait time (in seconds) for RESUMABLE(默认7200)

date_cache -- size (in entries) of date conversion cache(默认1000)

导入的四种类型

insert --为缺省方式，在数据装载开始时要求表为空

append --在表中追加新记录

replace --删除旧记录(用 delete from table 语句)，替换成新装载的记录

truncate --删除旧记录(用 truncate table 语句)，替换成新装载的记录

TRAILING NULLCOLS -- 表的字段没有对应的值时允许为空

LucasCYGu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mssql写入mysql_某社区600万用户数据导入MYSQL、MSSQL、Oracle数据库方法

1.导入MySql数据库1.1.LOAD DATA INFILE语法因为获得的数据库文件是一个文本文件www.csdn.net.sql，因此需要用到mysql中的LOAD DATA INFILE命令，LOAD DATA INFILE的语法结构如下：View CodeLOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name'[RE...
复制链接

扫一扫