django+haystack+elasticsearch优化查询效率
背景
主要就是这边有一个几千万数据的表存在mysql里,临时需要做一个对n个字段的模糊查询,之前考虑了挺多办法,like查询太慢 加了索引也只能’xxx%‘查询,其他两种’%xxx’或’%xxx%'就索引失效,会走mysql全表扫描。之前也做了mysql的全文索引,结果也不尽人意。最后选择了搜索引擎来做模糊查询的优化;
看了网上很多的blog,基本都是复制粘贴,看的我头都大了。于是自己闲着没事也写一篇吧;
说一句题外话,之前有用过Whoosh + jieba分词的时候处理。但是发现结巴分词分的粒度不够小。例如一个title。只能分成几个词、几个字这种。如果单纯搜title里的其中一个字不一定能搜出来。也可能是我姿势不对。
最后用的elasticsearch,elasticsearch自带的分词,粒度就非常小。基本穷举了所有可能。例如title是
“elasticsearch优化查询效率” 可能就切分成了[“elasticsearch”, “优”, “化”, “查”, “询”, “效”, “率”, “优化”, “查询”, “效率”, “优化查询”, ···,“elasticsearch优化查询效率”],n种可能。用户使用起来体验会比较好;
安装环境
// 环境安装,这里就直接放了我的环境安装的版本吧。
pip install django-haystack==2.8.1
// 这里python安装的elasticsearch必须要比本机上安装的elasticsearch应用程序版本低。(我这边安装的2.4.6版本的应用程序)
pip install elasticsearch==2.4.1
配置
1.在settings中的配置
'''注册app '''
INSTALLED_APPS = [
'django.contrib.admin',
'django.contrib.auth',
'django.contrib.contenttypes',
'django.contrib.sessions',
'django.contrib.messages',
'django.contrib.staticfiles',
# haystack要放在应用的上面
'haystack',
'myapp', # 这个jsapp是自己创建的app
]
······
# H