表数据超过百万级别时使用pandas读取数据速度过慢,如果仍然想用pandas读取,可以通过多进程提高效率。同时可以将常用数据保存为pkl文件,以便后续使用。
@主要代码实现
#按照表中的某字段将表划分为比较均匀的多个子集
#本例中需要读取的表中包含了城市字段,
#且涉及的城市包含了全国大部分城市,数据分布较为均匀,因此制作了一张省份城市配置表,将数据划分
#读取省份-城市配置表,获取城市列表
def get_division_list(db_connect, division_table):
sql = 'select * from {};'.format(division_table)
data = pd.read_sql(sql, con = db_connect)
#省份列表
province_list = data['province'].unique().tolist()
#获取城市列表
city_list = [