遗憾的是,BCP的batch_size参数不控制输出.
我做过这种分裂的方式:
1 – 简单但不可重复:创建一个命令文件(.cmd),该文件在表上针对特定行范围运行多个BCP.这可能需要在表上使用基于IDENTITY(1,1)的主键.
bcp "SELECT * FROM MyTable WHERE Id BETWEEN 0 AND 10000000" queryout …
bcp "SELECT * FROM MyTable WHERE Id BETWEEN 10000000 AND 20000000" queryout …
2 – 简单且可重复,使用大量磁盘:将整个表BCP输出到单个文件并使用split来根据需要创建任意数量的新文件,每个文件中包含给定的字节数(注意:按行拆分会更好想法IMO).使用’Cygwin'(不再维护GnuWin32)来安装拆分和任何其他所需的实用程序.
bcp MyDb.MySchema.MyTable out C:\MyFile.csv -T -w
split -b 10737418240 C:\MyFile.csv C:\MySplitFile_
C:\MySplitFile_aaa
C:\MySplitFile_aab
…
3 – 复杂但可重复,需要可能不安全的T-sql:使用xp_cmdshell函数在遍历表的存储过程中调用BCP.
DECLARE @loop AS INT;
--Use WHILE to loop as needed--
DECLARE @sql AS VARCHAR(MAX);
--Add code to generate dynamic sql here--
DECLARE @bcp AS VARCHAR(MAX);
SELECT @bcp='BCP "'+@sql+'" queryout C:\MyFolder\MyFile_'+@loop+'.csv';
最后注意:如果您在数据中使用任何NVARCHAR字段,则需要使用-w标志并注意输出将为UTF-16LE.我强烈建议在尝试使用Hadoop对它进行任何操作之前,使用iconv(再次来自’Cygwin’)将其转换为UTF-8.