django项目中如何使用全文检索框架haystack的安装、配置和使用

最新推荐文章于 2024-04-02 20:57:34 发布

专职

最新推荐文章于 2024-04-02 20:57:34 发布

阅读量890

点赞数 1

分类专栏： Django

本文链接：https://blog.csdn.net/weixin_42289273/article/details/108908304

版权

Django 专栏收录该内容

105 篇文章 15 订阅

订阅专栏

最终实现效果：如下图

搜索框输入草莓

结果如图：

1. 搜索引擎和全文检索框架概述

2. 安装和配置

（1）pip install djang-haystack==2.5.1 # 安装全文检索框架

注意：此案例中django使用的1.8.2，所以django-haystack==2.5.1不会报错

（2）pip install whoosh # 安装whoosh搜索引擎

（3）注册全文检索框架

INSTALLED_APPS = (
    ...
    "haystack",  # 注册全文检索框架
)

（4）全文检索框架的配置，在settings.py文件中增加如下代码

# 全文检索框架haystack的配置
HAYSTACK_CONNECTIONS = {
    "default": {
        # 使用whoosh引擎，下面就是我们刚才安装的一个路径
        "ENGINE": "haystack.backends.whoosh_backend.WhooshEngine",  # whoosh默认分词
        # "ENGINE": "haystack.backends.whoosh_cn_backend.WhooshEngine",  # jieba分词
        # 索引文件路径
        "PATH": os.path.join(BASE_DIR, "whoosh_index"),
    }
}
# 当添加、删除、修改数据时，自动生成索引
HAYSTACK_SIGNAL_PROCESSOR = "haystack.signals.RealtimeSignalProcessor"
# 每页显示条数
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 1

3. 生成索引文件

（1）在需要建立索引的模型类的应用下面新建一个python文件，名字必须是 search_indexes.py，如图

search_indexes.py中的代码如下：

# 定义索引类
from haystack import indexes
# 导入你需要建立索引的模型类
from goods.models import GoodsSKU  # 1. 此处需要修改成模型类


# 指定对于某个类的某些数据建立索引
# 索引类名格式：模型类名+Index
class GoodsSKUIndex(indexes.SearchIndex, indexes.Indexable):  # 2. 此处需要修改类的名称
    # 索引字段，use_template指定根据表中的哪些字段建立索引文件,他的一个说明放在文件中
    text = indexes.CharField(document=True, use_template=True)
    
    def get_model(self):
        # 返回你的模型类
        return GoodsSKU  # 3. 此处需要返回模型类名
    
    # 建立索引的数据
    def index_queryset(self, using=None):
        return self.get_model().objects.all()

（2）在项目的template目录中建立索引目录，名称必须是search，

在search目录下在新建一个目录，名称必须是indexes

在indexes目录在新建一个目录，名称是你的模型类所在的应用的应用名称，我的案例中应用名叫goods，所以目录名叫goods

在goods目录下在新建一个文件，文件取名为：模型类名小写_text.txt，我的案例中文件取名为：goodssku_text.txt

如图：

注意：object是固定的,点后面就是字段名/类属性名

4. 建立索引数据

（1）回到项目目录下，输入： python manage.py rebuild_index

（2）会在项目根目录下自动建立一个上面配置whoosh_index目录，目录里面自动生成的就是索引文件

5. 使用haystack进行全文搜索

（1）表单提交的地方需要修改3处，表单提交方法必须是get方法,提交的Input框中的name必须叫 q，表单提交的地址可以自己定义，如下

<form method="get" action="/search/">
    <input type="text" class="input_text fl" name="q" placeholder="搜索商品">
    <input type="submit" class="input_btn fr" name="" value="搜索">
</form>

（2）项目的根url.py需要增加一项配置，包含全文检索框架haystack

urlpatterns = [
    url(r"search/", include("haystack.urls")),  # 包含全文检索框架haystack
]

（3）在项目的templates目录下的search目录下新建一个search.html文件

默认情况下，page对象是一页20条，我们也可以自己指定每页显示的数量，在settings.py文件中增加一行代码

HAYSTACK_SEARCH_RESULTS_PER_PAGE = 10

（4）search.html文件中的代码如下，里面用到了haystack搜索后传递过来的3个模板变量

query、page、paginator

{% extends "base_detail_list.html" %}
{% block title %}天天生鲜-商品搜索结果列表{% endblock title %}

{% block main_content %}
    <div class="breadcrumb">
        <a href="#">{{ query }}</a>
        <span>></span>
        <a href="#">搜索结果如下：</a>
    </div>

    <div class="main_wrap clearfix">
        <ul class="goods_type_list clearfix">
            {% for item in page %}
                <li>
                    <a href="{% url 'goods:detail' item.object.id %}"><img src="{{ item.object.image.url }}"></a>
                    <h4><a href="{% url 'goods:detail' item.object.id %}">{{ item.object.name }}</a></h4>
                    <div class="operate">
                        <span class="prize">￥{{ item.object.price }}</span>
                        <span class="unit">{{ item.object.price }}/{{ item.object.unite }}</span>
                        <a href="#" class="add_goods" title="加入购物车"></a>
                    </div>
                </li>
            {% endfor %}
        </ul>
        <div class="pagenation">
            {% if page.has_previous %}
                <a href="/search/?q={{ query }}&page={{ page.previous_page_number }}">&lt;上一页</a>
            {% endif %}

            {% for pindex in paginator.page_range %}
                {% if pindex == page.number %}
                    <a href="/search/?q={{ query }}&page={{ pindex }}" class="active">{{ pindex }}</a>
                {% else %}
                    <a href="/search/?q={{ query }}&page={{ pindex }}">{{ pindex }}</a>
                {% endif %}
            {% endfor %}

            {% if page.has_next %}
                <a href=/search/?q={{ query }}&page={{ page.next_page_number }}"">下一页&gt;</a>
            {% endif %}
        </div>
    </div>
{% endblock main_content %}

6. 改变分词方式

（1）由于whoosh引擎中对中文进行分词不是特别友好，所以使用jieba分词包，而不再使用whoosh中默认的分词包

（2）安装jieba分词包： pip install jieba

（3）jieba分词的特效如图

（4）切换到安装的haystack目录下的backends目录下

（5）在该目录下新建一个文件，名称为：ChineseAnalyzer.py，文件中代码如下

import jieba
from whoosh.analysis import Tokenizer, Token

class ChineseTokenizer(Tokenizer):
    def __call__(self, value, positions=False, chars=False,
                 keeporiginal=False, removestops=True,
                 start_pos=0, start_char=0, mode='', **kwargs):
        t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs)
        seglist = jieba.cut(value, cut_all=True)
        for w in seglist:
            t.original = t.text = w
            t.boost = 1.0
            if positions:
                t.pos = start_pos + value.find(w)
            if chars:
                t.startchar = start_char + value.find(w)
                t.endchar = start_char + value.find(w) + len(w)
            yield t

def ChineseAnalyzer():
    return ChineseTokenizer()

（6）复制whoosh_backend.py 生成一份新的文件 whoosh_cn_backend.py

然后对文件whoosh_cn_backend.py进行1增加1处修改

增加：from .ChineseAnalyzer import ChineseAnalyzer

# 修改：更改词语分析类

查找analyzer=StemmingAnalyzer()

改为analyzer=ChineseAnalyzer()

（7）然后修改全文检索框架使用的whoosh文件，在settings.py文件中修改配置

（8）最后一步：重新生成索引文件，回到项目目录下输入：

python manage.py rebuild_index

专职

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录