solr 自定义QueryParser 用户查询解析方案

最新推荐文章于 2019-03-07 17:28:00 发布

Kehl

最新推荐文章于 2019-03-07 17:28:00 发布

阅读量3k

点赞数 1

分类专栏： solr 文章标签： solr 搜索 query queryparse

本文链接：https://blog.csdn.net/Oliverkehl/article/details/51673839

版权

solr 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

背景

一个完整的搜索流程，query其实是最关键的角色，它甚至比人的标签等信息更加关键，这也是PPC这种搜索广告赚钱的基本保障。

我们作为搜索服务提供商，能够怎么应对这些query，并且根据用户输入的query构造出不同的lucene布尔查询，这是非常关键的一个问题。拿之前做过的地图检索为例，用户输入：上海市浦东新区罗山路28号，我们的底层schema存有省，市，县，区，街道等信息，那么我们如果把用户query进行分词可以得到：“上海市”，“浦东新区”，“罗山路”，“28号”。(至于如何能得到这些term而不是使用ngram这种分词，可以参考一下现有的一些分词方案。不过对于电商网站来讲，扩词典就足够了)

得到上述的几个term(也称token)之后，可以看到，如果能去省、市信息中搜索“上海市”，去区信息中搜索“浦东新区”，去街道信息中搜索“罗山路”和“28号”甚至是“罗山路28号”，那么只要索引里有相应的数据，这次搜索就是“完美”的。

方案

最近就使用自定义的queryParserPlugin在解决相应的问题：
首先需要解决tokenize和tag，即首先需要有比较好的分词和标注方案，即你如何能够得到“上海市”这个term并且给这个term加个“省”的标签。(还是那句话，query和自然语言的差距太大了，扩词典是最便捷的解决方案，之前试过CRF，抛开准确率的关系，效率实在太低，不太适合线上使用。其实可以把历史的query都用CRF跑一次，估计能覆盖到90%以上的query，这样就可以提供线上的解决方案，不过代价太大了，训练数据都没有。。) 分词没有遇到太大的问题，使用词典进行标注的时候遇到了一个比较棘手的问题，例如某个term “ABC”，它可能是区的名字，也可能是街道的名字，那么该怎么标注呢？方案其实很简单，用贝叶斯就可以，效率高，而且简单，准确率也高~

话说回来，你如果能够解决掉分词和标注的问题，那么构造一个比较好的布尔查询语句也就很容易了，在solr中写业务相关的QParser插件，然后重写QParser的parse方法，就可以得到对应的标准lucene查询语句了，见下代码：

@Override
public Query parse(){
    reset();
    //如果是*则构造一个通配符查询，返回所有结果
    if(this.qstr.equals("*")){
        String defaultField = getReq().getSchema().getDefaultSearchFieldName();
        Query q = new WildcardQuery(new Term(defaultField,"*"));
        return new NiuniuQuery(q);
    }
    long t1 = System.currentTimeMillis();
    String df = req.getSchema().getDefaultSearchFieldName();
    Analyzer analyzer = req.getSchema().getQueryAnalyzer();
    TokenStream source;
    try {
        source = analyzer.tokenStream(df, new StringReader(this.qstr));
        source.reset();
    } catch (IOException e) {
        return null;
    }
    CachingTokenFilter buffer = new CachingTokenFilter(source);
    TermToBytesRefAttribute termAtt = null;
    PositionIncrementAttribute posIncrAtt = null;
    TypeAttribute type = null;
    int numTokens = 0;

    buffer.reset();

    if (buffer.hasAttribute(TermToBytesRefAttribute.class)) {
        termAtt = buffer.getAttribute(TermToBytesRefAttribute.class);
    }
    if (buffer.hasAttribute(PositionIncrementAttribute.class)) {
        posIncrAtt = buffer.getAttribute(PositionIncrementAttribute.class);
    }
    if (buffer.hasAttribute(TypeAttribute.class)){
        type = buffer.getAttribute(TypeAttribute.class);
    }

    int positionCount = 0;
    boolean severalTokensAtSamePosition = false;

    boolean hasMoreTokens = false;
    if (termAtt != null) {
        try {
            hasMoreTokens = buffer.incrementToken();
            while (hasMoreTokens) {
                numTokens++;
                int positionIncrement = (posIncrAtt != null) ? posIncrAtt
                        .getPositionIncrement() : 1;
                if (positionIncrement != 0) {
                    positionCount += positionIncrement;
                } else {
                    severalTokensAtSamePosition = true;
                }
                hasMoreTokens = buffer.incrementToken();
            }
        } catch (IOException e) {
            // ignore
        }
    }
    try {
        // rewind the buffer stream
        buffer.reset();
        // close original stream - all tokens buffered
        source.close();
    } catch (IOException e) {
        return null;
    }

    BytesRef bytes = termAtt == null ? null : termAtt.getBytesRef();

    if (numTokens == 0)
        return null;
    else {
        q = new BooleanQuery(positionCount == 1);
        for (int i = 0; i < numTokens; i++) {
            try {
                boolean hasNext = buffer.incrementToken();
                assert hasNext == true;
                termAtt.fillBytesRef();
            } catch (IOException e) {
                // safe to ignore, because we know the number of
                // tokens
            }
            termBelong(type, bytes);//解析这个term应该去哪个field中查询
        }
        generateQuery();//根据解析结果构造布尔查询，很确定的信息直接用AND，不太确定的就拿OR
        System.out.println("QP解析用时：");
        System.out.println(System.currentTimeMillis() - t1);
        return new NiuniuQuery(q);
        //return q;
    }
}

当然query的预处理没有在这里处理，不过例如query截断、特殊字符处理、归一化等方案交给直接调用solr搜索服务的后台就好了

为了能够在solr中使用，需要扩展QParserPlugin插件，非常简单：

public class NiuniuQueryParserPlugin extends QParserPlugin{
    public void init(NamedList args) {
    }

    @Override
    public QParser createParser(String qstr, SolrParams localParams, SolrParams params, SolrQueryRequest req) {
        return new NiuniuQueryParser(qstr, localParams, params, req);
    }

}

当然如果想做个性化排序，可以在QP里把用户id对应的你们算法同学产出的标签或者偏好数据实时获取到(例如一个用户天天买水果，那么他搜苹果的时候，你们就该给真正的苹果多加点分了，在哪里加就看下一篇文章讨论啦！)

最后，在solr的solrconfig.xml文件中定义：

<queryParser name="niuniuparser" class="com.niuniu.search.NiuniuQueryParserPlugin"/>

然后就可以构造搜索串：hostname:port/solr/select?q=上海浦东新区蔡伦路&defType=niuniuparser ，这样就可以按照开头的“完美搜索”思路去应对这次搜索了。

最后，QP看起来简单，其实可以很复杂的哟，单拿分词一项出来，够你折腾好久了

Kehl

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
solr 自定义QueryParser 用户查询解析方案

背景一个完整的搜索流程，query其实是最关键的角色，它甚至比人的标签等信息更加关键，这也是PPC这种搜索广告赚钱的基本保障。我们作为搜索服务提供商，能够怎么应对这些query，并且根据用户输入的query构造出不同的lucene布尔查询，这是非常关键的一个问题。拿之前做过的地图检索为例，用户输入：上海市浦东新区罗山路28号，我们的底层schema存有省，市，县，区，街道等信息，那么我们如果把用
复制链接

扫一扫