mysql 插入大量数据

最新推荐文章于 2024-04-23 09:45:29 发布

MS_HAOHAO

最新推荐文章于 2024-04-23 09:45:29 发布

阅读量1.4k

点赞数

文章标签： mysql

基本语法：
load data [low_priority] [local] infile ‘file_name txt’ [replace | ignore]
into table tbl_name
[fields
[terminated by’t’]
[OPTIONALLY] enclosed by ”]
[escaped by’\’ ]]
[lines terminated by’n’]
[ignore number lines]
[(col_name, )]

load data infile语句从一个文本文件中以很高的速度读入一个表中。使用这个命令之前，mysqld进程（服务）必须已经在运行。为了安全原因，当读取位于服务器上的文本文件时，文件必须处于数据库目录或可被所有人读取。另外，为了对服务器上文件使用load data infile，在服务器主机上你必须有file的权限。
1 如果你指定关键词low_priority，那么MySQL将会等到没有其他人读这个表的时候，才把插入数据。可以使用如下的命令：
load data low_priority infile “/home/mark/data sql” into table Orders;

2 如果指定local关键词，则表明从客户主机读文件。如果local没指定，文件必须位于服务器上。

3 replace和ignore关键词控制对现有的唯一键记录的重复的处理。如果你指定replace，新行将代替有相同的唯一键值的现有行。如果你指定ignore，跳过有唯一键的现有行的重复行的输入。如果你不指定任何一个选项，当找到重复键时，出现一个错误，并且文本文件的余下部分被忽略。例如：
load data low_priority infile “/home/mark/data sql” replace into table Orders;

4 分隔符
（1） fields关键字指定了文件记段的分割格式，如果用到这个关键字，MySQL剖析器希望看到至少有下面的一个选项：
terminated by分隔符：意思是以什么字符作为分隔符
enclosed by字段括起字符
escaped by转义字符
terminated by描述字段的分隔符，默认情况下是tab字符（\t）
enclosed by描述的是字段的括起字符。
escaped by描述的转义字符。默认的是反斜杠（backslash：\ ）
例如：load data infile “/home/mark/Orders txt” replace into table Orders fields terminated by’,’ enclosed by ‘”’;
（2）lines 关键字指定了每条记录的分隔符默认为’\n’即为换行符
如果两个字段都指定了那fields必须在lines之前。如果不指定fields关键字缺省值与如果你这样写的相同： fields terminated by’\t’ enclosed by ’ ” ‘ escaped by’\’
如果你不指定一个lines子句，缺省值与如果你这样写的相同： lines terminated by’\n’
例如：load data infile “/jiaoben/load.txt” replace into table test fields terminated by ‘,’ lines terminated by ‘/n’;
5 load data infile 可以按指定的列把文件导入到数据库中。当我们要把数据的一部分内容导入的时候，，需要加入一些栏目（列/字段/field）到MySQL数据库中，以适应一些额外的需要。比方说，我们要从Access数据库升级到MySQL数据库的时候
下面的例子显示了如何向指定的栏目(field)中导入数据：
load data infile “/home/Order txt” into table Orders(Order_Number, Order_Date, Customer_ID);
6 当在服务器主机上寻找文件时，服务器使用下列规则：
（1）如果给出一个绝对路径名，服务器使用该路径名。
（2）如果给出一个有一个或多个前置部件的相对路径名，服务器相对服务器的数据目录搜索文件。
（3）如果给出一个没有前置部件的一个文件名，服务器在当前数据库的数据库目录寻找文件。
例如： /myfile txt”给出的文件是从服务器的数据目录读取，而作为“myfile txt”给出的一个文件是从当前数据库的数据库目录下读取。

注意：字段中的空值用\N表示

我的文章一般浅显易懂，不会搞那么深入让大家很难理解。（其实我水平也不咋样)

LOAD DATA INFILE 一直被认为是MySQL很强大的一个数据导入工具，因为他速度非常的快。
不过有几个问题一定要注意
1、编码。
2、灵活导入导出。

我来举两个例子说明一下。
一、关于编码
我们的示例文本文件：
“我爱你”,”20”,”相貌平常，经常耍流氓！哈哈”
“李奎”,”21”,”相貌平常，经常耍流氓！哈哈”
“王二米”,”20”,”相貌平常，经常耍流氓！哈哈”
“老三”,”24”,”很强”
“老四”,”34”,”XXXXX”
“老五”,”52”,”*%￥￥￥￥”
“小猫”,”45”,”中间省略。。。”
“小狗”,”12”,”就会叫”
“小妹”,”21”,”PP的很”
“小坏蛋”,”52”,”表里不一”
“上帝他爷”,”96”,”非常英俊”
“MM来了”,”10”,”。。。”
“歌颂党”,”20”,”社会主义好”
“人民好”,”20”,”的确是好”
“老高”,”10”,”学习很好”
“斜三”,”60”,”眼睛斜了”
“中华之子”,”100”,”威武的不行了”
“大米”,”63”,”我爱吃”
“苹果”,”15”,”好吃”
我们的示例表结构：

+——-+———————————————————————————————————————————————————————————————————————————————————————–+
| Table | Create Table |
+——-+———————————————————————————————————————————————————————————————————————————————————————–+
| t0 | CREATE TABLE t0 (
id bigint(20) unsigned NOT NULL auto_increment,
name char(20) NOT NULL,
age tinyint(3) unsigned NOT NULL,
description text NOT NULL,
PRIMARY KEY (id),
UNIQUE KEY idx_name (name)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 |
+——-+———————————————————————————————————————————————————————————————————————————————————————–+
1 row in set (0.00 sec)

我们把这个文本文件从WINDOWS 下COPY到LINUX下看看

mysql> load data infile ‘/tmp/t0.txt’ ignore into table t0 character set gbk fields terminated by ‘,’ enclosed by ‘”’ lines terminated by ‘\n’ (name,age,description);
Query OK, 19 rows affected (0.01 sec)
Records: 19 Deleted: 0 Skipped: 0 Warnings: 0

mysql> select * from t0;
+—-+———-+—–+—————————-+
| id | name | age | description |
+—-+———-+—–+—————————-+
| 1 | 我爱你 | 20 | 相貌平常，经常耍流氓！哈哈 |
| 2 | 李奎 | 21 | 相貌平常，经常耍流氓！哈哈 |
| 3 | 王二米 | 20 | 相貌平常，经常耍流氓！哈哈 |
| 4 | 老三 | 24 | 很强 |
| 5 | 老四 | 34 | XXXXX |
| 6 | 老五 | 52 | *%￥￥￥￥ |
| 7 | 小猫 | 45 | 中间省略。。。 |
| 8 | 小狗 | 12 | 就会叫 |
| 9 | 小妹 | 21 | PP的很 |
| 10 | 小坏蛋 | 52 | 表里不一 |
| 11 | 上帝他爷 | 96 | 非常英俊 |
| 12 | MM来了 | 10 | 。。。 |
| 13 | 歌颂党 | 20 | 社会主义好 |
| 14 | 人民好 | 20 | 的确是好 |
| 15 | 老高 | 10 | 学习很好 |
| 16 | 斜三 | 60 | 眼睛斜了 |
| 17 | 中华之子 | 100 | 威武的不行了 |
| 18 | 大米 | 63 | 我爱吃 |
| 19 | 苹果 | 15 | 好吃 |
+—-+———-+—–+—————————-+
19 rows in set (0.00 sec)

我来说明一下相关的参数
关于我的导入语句，我现在直说两个，其他的参考手册。
character set gbk;

这个字符集一定要写，要不然就会乱码或者只导入一部分数据。

ignore into table

因为name 列加了唯一索引，加这个是为了避免重复数据插入报错。

加入我们再次运行这个导入语句就会发现
Query OK, 0 rows affected (0.00 sec)
Records: 19 Deleted: 0 Skipped: 19 Warnings: 0
没有任何值导入，因为里面已经有了相同的值。

这里也可以用replace into table
MySQL会把相同的先干掉，再插入新的值。
mysql> load data infile ‘/tmp/t0.txt’ replace into table t0 character set gbk fields terminated by ‘,’ enclosed by ‘”’ lines terminated by ‘\n’ (name,age,description);
Query OK, 38 rows affected (0.00 sec)
Records: 19 Deleted: 19 Skipped: 0 Warnings: 0

mysql> select * from t0;
+—-+———-+—–+—————————-+
| id | name | age | description |
+—-+———-+—–+—————————-+
| 20 | 我爱你 | 20 | 相貌平常，经常耍流氓！哈哈 |
| 21 | 李奎 | 21 | 相貌平常，经常耍流氓！哈哈 |
| 22 | 王二米 | 20 | 相貌平常，经常耍流氓！哈哈 |
| 23 | 老三 | 24 | 很强 |
| 24 | 老四 | 34 | XXXXX |
| 25 | 老五 | 52 | *%￥￥￥￥ |
| 26 | 小猫 | 45 | 中间省略。。。 |
| 27 | 小狗 | 12 | 就会叫 |
| 28 | 小妹 | 21 | PP的很 |
| 29 | 小坏蛋 | 52 | 表里不一 |
| 30 | 上帝他爷 | 96 | 非常英俊 |
| 31 | MM来了 | 10 | 。。。 |
| 32 | 歌颂党 | 20 | 社会主义好 |
| 33 | 人民好 | 20 | 的确是好 |
| 34 | 老高 | 10 | 学习很好 |
| 35 | 斜三 | 60 | 眼睛斜了 |
| 36 | 中华之子 | 100 | 威武的不行了 |
| 37 | 大米 | 63 | 我爱吃 |
| 38 | 苹果 | 15 | 好吃 |
+—-+———-+—–+—————————-+
19 rows in set (0.00 sec)

(name,age,description);

这些也就是具体的表属性了，指明这个就可以导入想要的数据。
2、关于灵活性，其实也就是一个记录功能
如果想在导入的时候记录一下导入的具体时间怎么办？
我们来看看
先加一个时间属性记录导入时间。
mysql> alter table t0 add update_time timestamp not null;
Query OK, 19 rows affected (0.00 sec)
Records: 19 Duplicates: 0 Warnings: 0
干掉唯一索引
mysql> alter table t0 drop index idx_name;
Query OK, 19 rows affected (0.00 sec)
Records: 19 Duplicates: 0 Warnings: 0

mysql> load data infile ‘/tmp/t0.txt’ into table t0 character set gbk fields terminated by ‘,’ enclosed by ‘”’ lines terminated by ‘\n’ (name,age,description) set update_time=current_timestamp;
Query OK, 19 rows affected (0.00 sec)
Records: 19 Deleted: 0 Skipped: 0 Warnings: 0

mysql> select * from t0;
+—-+———-+—–+—————————-+———————+
| id | name | age | description | update_time |
+—-+———-+—–+—————————-+———————+
| 20 | 我爱你 | 20 | 相貌平常，经常耍流氓！哈哈 | 0000-00-00 00:00:00 |
…………
| 24 | 老四 | 34 | XXXXX | 0000-00-00 00:00:00 |
| 25 | 老五 | 52 | *%￥￥￥￥ | 0000-00-00 00:00:00 |
…………
| 35 | 斜三 | 60 | 眼睛斜了 | 0000-00-00 00:00:00 |
| 36 | 中华之子 | 100 | 威武的不行了 | 0000-00-00 00:00:00 |
…………
| 60 | 王二米 | 20 | 相貌平常，经常耍流氓！哈哈 | 2008-06-30 14:58:37 |
…………
| 68 | 上帝他爷 | 96 | 非常英俊 | 2008-06-30 14:58:37 |
| 69 | MM来了 | 10 | 。。。 | 2008-06-30 14:58:37 |
…………
| 75 | 大米 | 63 | 我爱吃 | 2008-06-30 14:58:37 |
| 76 | 苹果 | 15 | 好吃 | 2008-06-30 14:58:37 |
+—-+———-+—–+—————————-+———————+
38 rows in set (0.00 sec)

新导入的19条记录时间被记录了下来。
只是之前的数据库没有记录，不过现在不需要这些重复数据了。

干掉他就可以了

mysql> alter table t0 order by id desc;
Query OK, 38 rows affected (0.01 sec)
Records: 38 Duplicates: 0 Warnings: 0

mysql> alter ignore table t0 add unique index idx_name (name);
Query OK, 38 rows affected (0.00 sec)
Records: 38 Duplicates: 19 Warnings: 0

mysql> alter table t0 order by id asc;
Query OK, 19 rows affected (0.01 sec)
Records: 19 Duplicates: 0 Warnings: 0

mysql> select * from t0;
+—-+———-+—–+—————————-+———————+
| id | name | age | description | update_time |
+—-+———-+—–+—————————-+———————+
| 58 | 我爱你 | 20 | 相貌平常，经常耍流氓！哈哈 | 2008-06-30 14:58:37 |
| 59 | 李奎 | 21 | 相貌平常，经常耍流氓！哈哈 | 2008-06-30 14:58:37 |
| 60 | 王二米 | 20 | 相貌平常，经常耍流氓！哈哈 | 2008-06-30 14:58:37 |
| 61 | 老三 | 24 | 很强 | 2008-06-30 14:58:37 |
| 62 | 老四 | 34 | XXXXX | 2008-06-30 14:58:37 |
| 63 | 老五 | 52 | *%￥￥￥￥ | 2008-06-30 14:58:37 |
| 64 | 小猫 | 45 | 中间省略。。。 | 2008-06-30 14:58:37 |
| 65 | 小狗 | 12 | 就会叫 | 2008-06-30 14:58:37 |
| 66 | 小妹 | 21 | PP的很 | 2008-06-30 14:58:37 |
| 67 | 小坏蛋 | 52 | 表里不一 | 2008-06-30 14:58:37 |
| 68 | 上帝他爷 | 96 | 非常英俊 | 2008-06-30 14:58:37 |
| 69 | MM来了 | 10 | 。。。 | 2008-06-30 14:58:37 |
| 70 | 歌颂党 | 20 | 社会主义好 | 2008-06-30 14:58:37 |
| 71 | 人民好 | 20 | 的确是好 | 2008-06-30 14:58:37 |
| 72 | 老高 | 10 | 学习很好 | 2008-06-30 14:58:37 |
| 73 | 斜三 | 60 | 眼睛斜了 | 2008-06-30 14:58:37 |
| 74 | 中华之子 | 100 | 威武的不行了 | 2008-06-30 14:58:37 |
| 75 | 大米 | 63 | 我爱吃 | 2008-06-30 14:58:37 |
| 76 | 苹果 | 15 | 好吃 | 2008-06-30 14:58:37 |
+—-+———-+—–+—————————-+———————+
19 rows in set (0.00 sec)

现在是达到了目的了，为啥中途要干掉唯一索引呢？因为set 语法再有IGNORE 的时候会忽略掉。

Load Data InFile ‘C:/Data.txt’ Into Table TableTest Lines Terminated By ‘\r\n’;
这个语句，字段默认用制表符隔开，每条记录用换行符隔开，在Windows下换行符为“\r\n”

C:/Data.txt 文件内容如下面两行：
1 A
2 B
“1”和“A”之间有一个制表符
这样就导进两条记录了。

自定义语法
Load Data InFile ‘C:/Data.txt’ Into Table TableTest Fields Terminated By ‘,’ Enclosed By ‘”’ Escaped By ‘”’ Lines Terminated By ‘\r\n’;

Fields Terminated By ‘,’ Enclosed By ‘”’ Escaped By ‘”’
表示每个字段用逗号分开，内容包含在双引号内

Lines Terminated By ‘\r\n’;
表示每条数据用换行符分开

和 Load Data InFile 相反的是
Select * From TableTest Into OutFile ‘C:/Data_OutFile.txt’;
把表的数据导出

我们的示例文本文件：
“我爱你”,”20”,”相貌平常，经常耍流氓！哈哈”
“李奎”,”21”,”相貌平常，经常耍流氓！哈哈”
“王二米”,”20”,”相貌平常，经常耍流氓！哈哈”
“老三”,”24”,”很强”
“老四”,”34”,”XXXXX”
“老五”,”52”,”*%￥￥￥￥”
“小猫”,”45”,”中间省略。。。”
“小狗”,”12”,”就会叫”
“小妹”,”21”,”PP的很”
“小坏蛋”,”52”,”表里不一”
“上帝他爷”,”96”,”非常英俊”
“MM来了”,”10”,”。。。”
“歌颂党”,”20”,”社会主义好”
“人民好”,”20”,”的确是好”
“老高”,”10”,”学习很好”
“斜三”,”60”,”眼睛斜了”
“中华之子”,”100”,”威武的不行了”
“大米”,”63”,”我爱吃”
“苹果”,”15”,”好吃”
我们的示例表结构：
CREATE TABLE t0 (
id bigint(20) unsigned NOT NULL auto_increment,
name char(20) NOT NULL,
age tinyint(3) unsigned NOT NULL,
description text NOT NULL,
PRIMARY KEY (id),
UNIQUE KEY idx_name (name)
) ENGINE=MyISAM DEFAULT CHARSET=utf8

mysql> load data infile ‘/tmp/t0.txt’ ignore into table t0 character set gbk fields terminated by ‘,’ enclosed by ‘”’ lines terminated by ‘\n’ (name,age,description);

Query OK, 19 rows affected (0.01 sec)
Records: 19 Deleted: 0 Skipped: 0 Warnings: 0

转载mysql导入数据load data infile用法
转载load data infile into table 的使用例子
转载JDBC实现往MySQL插入百万级数据

转载在MySQL中快速的插入大量测试数据
很多时候为了测试数据库设计是否恰当，优化SQL语句，需要在表中插入大量的数据，怎么插入大量的数据就是个问题了。
最开始想到的办法就是写一个程序通过一个很大的循环来不停的插入，比如这样：
int i = LOOP_COUNT;
while(i–>=0){
//insert data here.
}
不过我在这么做的时候发现这样插入数据非常的慢，一秒钟插入的数据量还不到100条，于是想到不要一条一条的插入，而是通过
INSERT INTO TABLE VALUES (),(),(),()…
这样的方式来插入。于是修改程序为：
int i = LOOP_COUNT;
StringBuilder stringBuilder;
while(i–>=0){
if(LOOP_COUNT!=i && i%5000==0){
//通过insert values的方式插入这5000条数据并清空stringBuilder
}
stringBuilder.append(“(数据)”);
}
//插入剩余的数据
这样做的插入速度是上升了很多，不过如果想要插入大量的输入，比如上亿条，那么花费的时间还是非常长的。
查询MySQL的文档，发现了一个页面：LOAD DATA INFILE 光看这个名字，觉得有戏，于是仔细看了下。
官方对于这个命令的描述是：
LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE ‘file_name’
[REPLACE | IGNORE]
INTO TABLE tbl_name
[CHARACTER SET charset_name]
[{FIELDS | COLUMNS}
[TERMINATED BY ‘string’]
[[OPTIONALLY] ENCLOSED BY ‘char’]
[ESCAPED BY ‘char’]
]
[LINES
[STARTING BY ‘string’]
[TERMINATED BY ‘string’]
]
[IGNORE number LINES]
[(col_name_or_user_var,…)]
[SET col_name = expr,…]
命令不复杂，具体的每个参数的意义和用法请看官方的解释 http://dev.mysql.com/doc/refman/5.5/en/load-data.html
那么现在做的就是生成数据了，我习惯用\t作为数据的分隔符、用\n作为一行的分隔符，所以生成数据的代码如下：
long start = System.currentTimeMillis() / 1000;
try {
File file = new File(FILE);

if (file.exists()) {
    file.delete();
}
file.createNewFile();

FileOutputStream outStream = new FileOutputStream(file, true);

StringBuilder builder = new StringBuilder(10240);
DateFormat dateFormat = new SimpleDateFormat(DATE_FORMAT);
Random rand = new Random();

String tmpDate = dateFormat.format(new Date());
Long tmpTimestamp = System.currentTimeMillis() / 1000;

int i = 0;
while (i++ < LOOP) { 
    if (i > 0 && i % 30000 == 0) {
        System.out.println("write offset:" + i);
        outStream.write(builder.toString().getBytes(CHARCODE));
        builder = new StringBuilder(10240);
    }

    if (tmpTimestamp.compareTo(System.currentTimeMillis() / 1000) != 0) {
        tmpDate = dateFormat.format(new Date());
        tmpTimestamp = System.currentTimeMillis() / 1000;
    }

    builder.append(tmpDate);
    builder.append("\t");
    builder.append(rand.nextInt(999));
    builder.append("\t");
    builder.append(Encrypt.md5(System.currentTimeMillis() + "" + rand.nextInt(99999999)));
    builder.append("\t");
    builder.append(rand.nextInt(999) % 2 == 0 ? "AA." : "BB");
    builder.append("\t");
    builder.append(rand.nextFloat() * 2000);
    builder.append("\t");
    builder.append(rand.nextInt(9));
    builder.append("\n");
}

System.out.println("write data:" + i);
outStream.write(builder.toString().getBytes(CHARCODE));

outStream.close();

} catch (Exception e) {
e.printStackTrace();
}

System.out.println(System.currentTimeMillis() / 1000 - start);
这段代码会生成一个数据文件，每一行为一条记录，然后再使用上面提到的 LOAD DATA 来导入数据就可以了，我在公司的电脑下（2G内存+垃圾双核CPU，MySQL直接装在windows下，没任何优化，developer模式）每秒能达到近万条的插入速度，比其他方式都快很多。
另外如果想直接用GUI工具操作也可以，比如SQLYog中，右键要导入的表，选择Import – Import CSV Data Using Load Local.. 然后设置好编码、分隔符后就可以直接导入了

转载关于批量插入数据之我见（100万级别的数据，mysql）

MS_HAOHAO

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mysql 插入大量数据

基本语法： load data [low_priority] [local] infile ‘file_name txt’ [replace | ignore] into table tbl_name [fields [terminated by’t’] [OPTIONALLY] enclosed by ”] [escaped by’\’ ]] [lines terminated b
复制链接

扫一扫