在数据处理时,由于经常有使用python读取数据库中数据的需求,因此写几个相对好调用的函数,方便对mysql中的数据表进行处理。
1 创建数据表
仅支持创建非常简单的数据表,主键外键等的设置暂时不支持。
# db是数据库连接,db = pymysql.connect(user="xx", password="xx", database="xx")
# table_name是要创建的数据表名
# para_list是要创建的数据表参数列表,格式如[{"name": "id", "type": "VARCHAR(8)"}, {"name": "age", "type": "INTEGER"}]
# drop是若数据库中存在该表,是否删除
def init_sql_table(db, table_name, para_list, drop=True):
cursor_add = db.cursor()
if drop:
cursor_add.execute("DROP TABLE IF EXISTS {}".format(table_name))
query = "CREATE TABLE IF NOT EXISTS {}(".format(table_name)
for parameter in para_list:
query = query + parameter["name"] + " " + parameter["type"] + ","
query = query[:-1] + ")"
print("建表:", query)
cursor_add.execute(query)
cursor_add.close()
db.commit()
2 读取数据表
2.1 流式读取
能够读取较大规模的表格,并支持逐条处理。要注意的是应为其分配一个单独的连接,且两条数据读取时间间隔小于60秒。目前也仅支持非常简单的查询,不支持条件筛选。
更多信息参考:减轻内存负担,在 pymysql 中使用 SSCursor 查询结果集较大的 SQL
# db是数据库连接,db = pymysql.connect(user="xx", password="xx", database="xx"),由于流式读取限制,应分配单独连接
# table_name是要创建的数据表名
# fields是要获取的字段
def get_info_from_sql_table_stream(db, table_name, fields):
cursor_s = pymysql.cursors.SSCursor(db)
temp_field = ""
for field in fields:
temp_field = temp_field + field + ","
temp_field = temp_field[:-1]
query = "SELECT {} FROM {}".format(temp_field, table_name)
cursor_s.execute(query)
record = cursor_s.fetchone()
while record:
yield record
record = cursor_s.fetchone()
cursor_s.close()
3 向数据表插入数据
向数据表中批量插入数据。
# db是数据库连接,db = pymysql.connect(user="xx", password="xx", database="xx")
# table_name是要创建的数据表名
# para_list是要创建的数据表参数列表,格式如[{"name": "id", "type": "VARCHAR(8)"}, {"name": "age", "type": "INTEGER"}]
# data是要插入数据表的数据,格式如[['1', 18], ['2', 22]]
def write_list_to_sql(db, table_name, para_list, data):
cursor_add = db.cursor()
q_long = "INSERT INTO {} VALUES".format(table_name)
text_type = ["VARCHAR"]
template = "("
cnt = 0
for parameter in para_list:
quotation_mark = False
for ftype in text_type:
if ftype in parameter["type"]:
quotation_mark = True
break
if quotation_mark:
template = template + "'{0[" + str(cnt) + "]}',"
else:
template = template + "{0[" + str(cnt) + "]},"
cnt += 1
template = template[:-1] + "),"
for record in data:
q = template.format(record)
q_long = q_long + q
q_long = q_long[:-1]
cursor_add.execute(q_long)
cursor_add.close()
db.commit()