奇怪的问题--load file导入数据后发现多了一个字符,三个字节

mysql上用load file导入了一个csv文件到一张表,导入后,查看,发现一行不正常,如下:

+-----------------+-------------+------------------+
| org             | length(org) | char_length(org) |
+-----------------+-------------+------------------+
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
| 000000000001   |          15 |               13 | ------------这里多了一个字符,三个字节,我的字符集是utf8的,不知道多了个什么字符。下面分析。
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
| 000000000001    |          12 |               12 |
+-----------------+-------------+------------------+

查看文件,并没有发现第一行有空格,因为是从windows上上传来的,我怀疑有不可见字符在捣乱。

下面利用vi的16进制分析文件,发现如下:

0000000: efbb bf30 3030 3030 3030 3030 3030 3109  ...000000000001.
0000010: 3109 3336 3232 3031 3139 3932 3031 3034  1.36220119920104
0000020: 3032 3132 0949 094a 09e9 9988 e5bd a6e5  0212.I.J........  
0000030: 8588 094d 0931 3939 322d 3031 2d30 3409  ...M.1992-01-04. 

发现问题了,多了efbb bf这3个字节,这是windows上utf8编码的BOM,去掉就可以正常load了。

去掉的方法:

最简单的:在windowns打开,用edit或notepad都行,另存为utf8格式无BOM格式。

当然linux也有去掉的方法,不过比较不好记忆命令,win上的最简单了。


如果文件中的数据不是逗号分隔的,而是每个数据占用固定长度,例如每个数据占用8个字节,我们可以使用 SUBSTRING 函数或 MID 函数来截取每个数据字节,并将其转换为相应的数据类型后,插入到数据库表中。 下面是一个示例存储过程,用于将文件中的每个8个字节长度的数据导入数据库表中: ``` DELIMITER // CREATE PROCEDURE import_data(IN file_name VARCHAR(255)) BEGIN DECLARE done INT DEFAULT FALSE; DECLARE row_count INT DEFAULT 0; DECLARE file_content BLOB; DECLARE file_cursor CURSOR FOR SELECT * FROM table_name; DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = TRUE; -- 打开文件 SET file_content = LOAD_FILE(file_name); -- 遍历文件内容 WHILE NOT done DO -- 读取文件中的一个数据 SET @data = SUBSTRING(file_content, 1, 8); SET file_content = SUBSTRING(file_content, 9); -- 转换数据类型并插入到数据库中 SET @value = CAST(CONV(HEX(@data), 16, 10) AS UNSIGNED BIGINT); INSERT INTO table_name (value) VALUES (@value); SET row_count = row_count + 1; END WHILE; SELECT CONCAT('Imported ', row_count, ' rows from file ', file_name) AS result; END // DELIMITER ; ``` 在这个存储过程中,我们使用 SUBSTRING 函数截取文件中的每个8个字节长度的数据,并将其赋值给 @data 变量。然后,我们使用 HEX 函数将这个数据转换为16进制字符串,再使用 CONV 函数将其转换为10进制整数,并将其赋值给 @value 变量。最后,我们使用 INSERT INTO 语句将 @value 变量的值插入到数据库表中。 需要注意的是,如果文件中的每个数据不是8个字节长度,而是其他固定长度,我们需要相应地修改 SUBSTRING 函数中的参数。另外,如果文件中的数据类型不是整数,而是其他类型,如浮点数或字符串,我们需要相应地修改转换函数的参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值