一点实习成果,过程中学了很多东西,就放出来吧,欢迎交流指正。
pgloader 介绍
一个开源的工具,用来把数据从其他地方导入到 PostgreSQL
写入 PostgreSQL 的时候用的 COPY 命令,效率高
v1 是 Tcl 写的,v2 是 Python 写的,v3 是 Common Lisp 写的,以下测试用的是 v3
导入来源目前支持 CSV 文件、STDIN、SQLite、MySQL、MSSQL
Common Lisp 介绍:Lisp 的一种分支,一种语言规范,偏函数式编程,使用S-表达式表示代码和数据结构,函数和宏调用以列表的形式写出
与原生 copy 进行性能对比测试
每次均为表清空之后再导入数据
本地只有 PostgreSQL 环境,且 pgloader 暂时不支持从 Oracle 直读数据(但支持 MSSQL、MySQL 直读),所以采用CSV文件作为数据源,相当于不读、只写(458368条记录,31MB),记录内容形如:"2016-1-1 0:00:00","1234567890","10.0.0.1","index.aspx","OK"
Python 测试和 pgloader 测试均在 Ubuntu 虚机上进行,连接到虚机宿主机上的 PG 数据库(包含网络开销)
分别进行三次测试,耗时结果:
Python: 3678ms, 4253ms, 6418ms
pgloader: 9690ms, 6740ms, 10793ms
平均速度: