下班前接到一个需求,要将sqlite数据库中的某个字段导出保存到一个文本中,数据大概有1000w左右,于是我就写了一个python脚本,来做这个事情。
#!/usr/xxx/bin/python
import os,sys
import sqlite3
import logging
sys.path.append('.')
# logger configure
logger = logging.getLogger()
handler = logging.FileHandler('/home/admin/tmp/xxx.txt')
logger.addHandler(handler)
logger.setLevel(logging.NOTSET)
sqlfile_path = '/home/admin/tmp/user.sql'
def write_to_file(guid):
total_count = get_total_count(guid)
page_size = 10000
offset_num = 0
op_num = 0
while op_num < total_count:
array_list = get_data([guid,page_size,op_num])
offset_num = offset_num + 1
op_num = offset_num * page_size
for n in array_list:
logger.info(n)
def get_total_count(guid):
conn = sqlite3.connect(sqlfile_path)
cur = conn.cursor()
cur.execute('select count(*) from table_name where id = \'' + guid + '\'')
try:
count = cur.fetchone()[0]
except:
count = 0
cur.close()
conn.close()
return count
def get_data(item):
conn = sqlite3.connect(sqlfile_path)
cur = conn.cursor()
cur.execute('select name from table_name where id = \'' + item[0] + '\' limit ' + item[1] + ' offset ' + item[2])
array_list = []
for r in cur.fetchall():
array_list.append(r[0])
cur.close()
conn.close()
return array_list
if '__maiin__' == __name__:
for guid in ['123456789','987654321']:
write_to_file(guid)
考虑到数据还是有一点大的,所以就每次查询10000条操作,写完后运行起来,然后我就下班走人了,第二天上班发现这个脚本居然还在跑着,一晚上还没有结束。那叫一个头疼啊。。。
这不是 GC 。
既然这么慢,那我就慢慢等吧,然后开始做其他事情去了,GC来了,兄弟我在测试其他程序的时候,一个不小心,在运行脚本的时候,把python脚本跑出来的文本给删了,连python脚本也一起全删了,当我意识过来的时候,泪流满面啊。。。
就在我沮丧的时候,旁边一同学问了我情况,然后默默的给了我一行代码:
sqlite3 user.sql "select name from table_name where id = '123456789'" >> xxx.txt
之后十分钟,数据全导出来了,效率真TM高。
PS:
python脚本可以用多线程处理,能提高效率,由于时间短,我就没去做,而且兄弟我对pyton也不是很熟悉
希望高人多多指点,有任何可以改进的地方,多多给小弟我指点吧,拍砖的也热烈欢迎。
共同提高,谢谢