对公司网站做了性能优化,其中一个for循环有15个查询:
- item.get_latest_forward()
- item.get_root()
- root.get_source()
- item.get_album()
- item.photo.middle_height()
- usr.get_profile().tinyAvatar() (获取用户头像,此方法走2个查询,每次5ms)-
- root.sender
- rusr.get_profile().tinyAvatar()
- item.get_top_comments()
- comm.sender
- comm.sender.get_profile().tinyAvatar()
- comm.sender.username
其中有一些方法走了cache, 但还是有一些方法走的是数据库查询,数据库查询每次耗时都在几毫秒,循环24次,总耗时就是上百毫秒。
我这次优化主要就是把数据库查询改成cache,如果不能走cache,就通过select in子查询先一次性查询出结果再处理。
一些总结
1. item.sender.id 比 item.sender_id 慢一个数量级,前者会触发一次查询。
2. django的对象关联非常方便,获取一个物品发布人的信息只需要 item.sender.profile,但这样写性能很差,这些查询都是通过数据库查询,而没有走cache。建议不要直接用django的对象关联,通过提供方法来做:
def get_sender(self):
key = cf.generate_cache_key(self.sender_id, User)
model = key and cache.get(key)
if
not model:
model = self.sender
cache.set(key, model, 60*60*24*3)
return
model
3.不要在for循环做耗时的数据库查询,累加效应之后性能非常差。
4.什么对象应该走cache? 我总结的就是被依赖的对象越多越应该cache起来,比如Auth_User,UserProfile,UploadFile应该被cache,而 Message对象没有被任何对象依赖,生命周期比较段,被cache起来命中率也不高。这点比较像jvm的GC里面的old区。