在使用Flask - Sqlalchemy 时,遇到了 count 操作巨慢,而且内存彪满的情况,原代码如下:
#计算user表,年龄大于10的条数
count = userModel.query.filter(userModel.age>10).count()
在数据量小的情况下,没有任何问题,当数据量上升到百万级别,就会出现巨慢的情况,而且主机内存一下子占用很多,原因如下,sqlalchemy会吧上述代码拼接成大致如下的sql:
select count(*) from(select * from user where age>10) ...
这是很坑爹的事情,就算我们改成如下代码也无济于事:
count = userModel.query.with_entities(userModel.Id).filter(userModel.age>10).count()
这样还是会拼接成大致如下的子查询:
select count(*) from(select Id from user where age>10) ...
所以如果涉及到大数据量count的操作,我们代码需要这样修改下:
count = db.session.query(func.count(userModel.Id)).filter(userModel.age>10).first()[0]
这样就会拼接成sql正常了:
select count(*) from user where age > 10 ...
回头再研究下,有没更加优雅的代码写法,这样比较丑陋。