python连接greenplum的时候,需要使用psycopg2这个包,这个包在连接数据库大批量写入文件的时候有几个小坑需要留意。
1、表不存在
错误err:
psycopg2.errors.UndefinedTable: relation“表名“ does not exist
这个是你使用copy_from方法大批量导入数据经常报的错误,这个错误是版本问题,把你当前的版本退回到psycopg2==2.8.4即可
2、数据对不上
错误err:
psycopg2.DataError: extra data after last expected column
value too long for type character varying
这个是你使用copy_from 方法的时候有个sep选项一定要改好,可以把sep="&",避免出现文件中多处一致的符号,从而导致数据表头列数和值的列数对不上,示例如下。
def insert_copy_df(self, tablename, df: pd.DataFrame()):
fp = StringIO()
df.to_csv(fp, sep='&', index=False, header=False)
value = fp.getvalue()
conn = self.gp_connect()
cur = conn.cursor(cursor_factory=psycopg2.extras.RealDictCursor)
cur.copy_from(StringIO(value), tablename, sep="&",
columns=['col1', 'col2', 'col3', 'col4'])
conn.commit()
cur.close()
conn.close()