最终实现效果:如下图
搜索框输入草莓
结果如图:
1. 搜索引擎和全文检索框架概述
2. 安装和配置
(1)pip install djang-haystack==2.5.1 # 安装全文检索框架
注意:此案例中django使用的1.8.2,所以django-haystack==2.5.1不会报错
(2)pip install whoosh # 安装whoosh搜索引擎
(3)注册全文检索框架
INSTALLED_APPS = (
...
"haystack", # 注册全文检索框架
)
(4)全文检索框架的配置,在settings.py文件中增加如下代码
# 全文检索框架haystack的配置
HAYSTACK_CONNECTIONS = {
"default": {
# 使用whoosh引擎,下面就是我们刚才安装的一个路径
"ENGINE": "haystack.backends.whoosh_backend.WhooshEngine", # whoosh默认分词
# "ENGINE": "haystack.backends.whoosh_cn_backend.WhooshEngine", # jieba分词
# 索引文件路径
"PATH": os.path.join(BASE_DIR, "whoosh_index"),
}
}
# 当添加、删除、修改数据时,自动生成索引
HAYSTACK_SIGNAL_PROCESSOR = "haystack.signals.RealtimeSignalProcessor"
# 每页显示条数
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 1
3. 生成索引文件
(1)在需要建立索引的模型类的应用下面新建一个python文件,名字必须是 search_indexes.py,如图
search_indexes.py中的代码如下:
# 定义索引类
from haystack import indexes
# 导入你需要建立索引的模型类
from goods.models import GoodsSKU # 1. 此处需要修改成模型类
# 指定对于某个类的某些数据建立索引
# 索引类名格式:模型类名+Index
class GoodsSKUIndex(indexes.SearchIndex, indexes.Indexable): # 2. 此处需要修改类的名称
# 索引字段,use_template指定根据表中的哪些字段建立索引文件,他的一个说明放在文件中
text = indexes.CharField(document=True, use_template=True)
def get_model(self):
# 返回你的模型类
return GoodsSKU # 3. 此处需要返回模型类名
# 建立索引的数据
def index_queryset(self, using=None):
return self.get_model().objects.all()
(2)在项目的template目录中建立索引目录,名称必须是search,
在search目录下在新建一个目录,名称必须是indexes
在indexes目录在新建一个目录,名称是你的模型类所在的应用的应用名称,我的案例中应用名叫goods,所以目录名叫goods
在goods目录下在新建一个文件,文件取名为:模型类名小写_text.txt,我的案例中文件取名为:goodssku_text.txt
如图:
注意:object是固定的,点后面就是字段名/类属性名
4. 建立索引数据
(1)回到项目目录下,输入: python manage.py rebuild_index
(2)会在项目根目录下自动建立一个上面配置whoosh_index目录,目录里面自动生成的就是索引文件
5. 使用haystack进行全文搜索
(1)表单提交的地方需要修改3处,表单提交方法必须是get方法,提交的Input框中的name必须叫 q,表单提交的地址可以自己定义,如下
<form method="get" action="/search/">
<input type="text" class="input_text fl" name="q" placeholder="搜索商品">
<input type="submit" class="input_btn fr" name="" value="搜索">
</form>
(2)项目的根url.py需要增加一项配置,包含全文检索框架haystack
urlpatterns = [
url(r"search/", include("haystack.urls")), # 包含全文检索框架haystack
]
(3)在项目的templates目录下的search目录下新建一个search.html文件
默认情况下,page对象是一页20条,我们也可以自己指定每页显示的数量,在settings.py文件中增加一行代码
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 10
(4)search.html文件中的代码如下,里面用到了haystack搜索后传递过来的3个模板变量
query、page、paginator
{% extends "base_detail_list.html" %}
{% block title %}天天生鲜-商品搜索结果列表{% endblock title %}
{% block main_content %}
<div class="breadcrumb">
<a href="#">{{ query }}</a>
<span>></span>
<a href="#">搜索结果如下:</a>
</div>
<div class="main_wrap clearfix">
<ul class="goods_type_list clearfix">
{% for item in page %}
<li>
<a href="{% url 'goods:detail' item.object.id %}"><img src="{{ item.object.image.url }}"></a>
<h4><a href="{% url 'goods:detail' item.object.id %}">{{ item.object.name }}</a></h4>
<div class="operate">
<span class="prize">¥{{ item.object.price }}</span>
<span class="unit">{{ item.object.price }}/{{ item.object.unite }}</span>
<a href="#" class="add_goods" title="加入购物车"></a>
</div>
</li>
{% endfor %}
</ul>
<div class="pagenation">
{% if page.has_previous %}
<a href="/search/?q={{ query }}&page={{ page.previous_page_number }}"><上一页</a>
{% endif %}
{% for pindex in paginator.page_range %}
{% if pindex == page.number %}
<a href="/search/?q={{ query }}&page={{ pindex }}" class="active">{{ pindex }}</a>
{% else %}
<a href="/search/?q={{ query }}&page={{ pindex }}">{{ pindex }}</a>
{% endif %}
{% endfor %}
{% if page.has_next %}
<a href=/search/?q={{ query }}&page={{ page.next_page_number }}"">下一页></a>
{% endif %}
</div>
</div>
{% endblock main_content %}
6. 改变分词方式
(1)由于whoosh引擎中对中文进行分词不是特别友好,所以使用jieba分词包,而不再使用whoosh中默认的分词包
(2)安装jieba分词包: pip install jieba
(3)jieba分词的特效如图
(4)切换到安装的haystack目录下的backends目录下
(5)在该目录下新建一个文件,名称为:ChineseAnalyzer.py,文件中代码如下
import jieba
from whoosh.analysis import Tokenizer, Token
class ChineseTokenizer(Tokenizer):
def __call__(self, value, positions=False, chars=False,
keeporiginal=False, removestops=True,
start_pos=0, start_char=0, mode='', **kwargs):
t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs)
seglist = jieba.cut(value, cut_all=True)
for w in seglist:
t.original = t.text = w
t.boost = 1.0
if positions:
t.pos = start_pos + value.find(w)
if chars:
t.startchar = start_char + value.find(w)
t.endchar = start_char + value.find(w) + len(w)
yield t
def ChineseAnalyzer():
return ChineseTokenizer()
(6)复制whoosh_backend.py 生成一份新的文件 whoosh_cn_backend.py
然后对文件whoosh_cn_backend.py进行1增加1处修改
增加:from .ChineseAnalyzer import ChineseAnalyzer
# 修改:更改词语分析类
查找analyzer=StemmingAnalyzer()
改为analyzer=ChineseAnalyzer()
(7) 然后修改全文检索框架使用的whoosh文件,在settings.py文件中修改配置
(8)最后一步:重新生成索引文件,回到项目目录下输入:
python manage.py rebuild_index