Python随机生成上亿数据，并写入greenplum数据库中

最新推荐文章于 2022-08-10 13:56:50 发布

weixin_43315211

最新推荐文章于 2022-08-10 13:56:50 发布

阅读量1.8k

点赞数 1

分类专栏： greenplum Python 文章标签： Python greenplum copy

本文链接：https://blog.csdn.net/weixin_43315211/article/details/87930485

版权

greenplum 同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

Python

3 篇文章 0 订阅

订阅专栏

最近项目中需要自己制造大量数据，并对greenplum的插件--gptext（全文检索）的性能进行测试。如果直接用python进行写入，性能太差，每小时大约插入几十万的数据。后面想到解决方法，先用python生成数据，写入到文本文件中，后使用greenplum的copy函数，进行数据的批量导入，大大节约了的时间，提升了效率：

1、使用Python随机生成数据：

具体方法见：https://blog.csdn.net/weixin_43315211/article/details/87929993

2、写入文本文件：

def write_to_csv():
    count=0
    with open('C:\\Users\\Administrator\\Desktop\\people_info.csv', 'a') as  f:
        for i in range (10000):
        count+=1
        items=mkitems()  ##mkitems()是随机生成信息的函数，返回的是一个字典
        j=items.values()
        f.writelines(",".join(j) + '\n')
        if (count%1000==0):
            print(count)

3、使用copy函数写入greenplum数据库：

copy函数的使用方法：

COPY table [(column [, ...])] FROM {'file' | STDIN}
     [ [WITH] 
       [OIDS]
       [HEADER]
       [DELIMITER [ AS ] 'delimiter']
       [NULL [ AS ] 'null string']
       [ESCAPE [ AS ] 'escape' | 'OFF']
       [NEWLINE [ AS ] 'LF' | 'CR' | 'CRLF']
       [CSV [QUOTE [ AS ] 'quote'] 
            [FORCE NOT NULL column [, ...]]
       [FILL MISSING FIELDS]
     [ [LOG ERRORS INTO error_table] [KEEP] 
       SEGMENT REJECT LIMIT count [ROWS | PERCENT] ]

COPY {table [(column [, ...])] | (query)} TO {'file' | STDOUT}
      [ [WITH] 
        [OIDS]
        [HEADER]
        [DELIMITER [ AS ] 'delimiter']
        [NULL [ AS ] 'null string']
        [ESCAPE [ AS ] 'escape' | 'OFF']
        [CSV [QUOTE [ AS ] 'quote'] 
             [FORCE QUOTE column [, ...]] ]

copy people_info(id_number,name,birthday,gender,phone,birth_place) from '/home/people_info.csv' with header delimiter ',' csv;

weixin_43315211

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录