solr 自定义QueryParser 用户查询解析方案

背景


一个完整的搜索流程,query其实是最关键的角色,它甚至比人的标签等信息更加关键,这也是PPC这种搜索广告赚钱的基本保障。

我们作为搜索服务提供商,能够怎么应对这些query,并且根据用户输入的query构造出不同的lucene布尔查询,这是非常关键的一个问题。拿之前做过的地图检索为例,用户输入:上海市浦东新区罗山路28号,我们的底层schema存有省,市,县,区,街道等信息,那么我们如果把用户query进行分词可以得到:“上海市”,“浦东新区”,“罗山路”,“28号”。(至于如何能得到这些term而不是使用ngram这种分词,可以参考一下现有的一些分词方案。不过对于电商网站来讲,扩词典就足够了)

得到上述的几个term(也称token)之后,可以看到,如果能去省、市信息中搜索“上海市”,去区信息中搜索“浦东新区”,去街道信息中搜索“罗山路”和“28号”甚至是“罗山路28号”,那么只要索引里有相应的数据,这次搜索就是“完美”的。

方案


最近就使用自定义的queryParserPlugin在解决相应的问题:
首先需要解决tokenize和tag,即首先需要有比较好的分词和标注方案,即你如何能够得到“上海市”这个term并且给这个term加个“省”的标签。(还是那句话,query和自然语言的差距太大了,扩词典是最便捷的解决方案,之前试过CRF,抛开准确率的关系,效率实在太低,不太适合线上使用。其实可以把历史的query都用CRF跑一次,估计能覆盖到90%以上的query,这样就可以提供线上的解决方案,不过代价太大了,训练数据都没有。。) 分词没有遇到太大的问题,使用词典进行标注的时候遇到了一个比较棘手的问题,例如某个term “ABC”,它可能是区的名字,也可能是街道的名字,那么该怎么标注呢?方案其实很简单,用贝叶斯就可以,效率高,而且简单,准确率也高~

话说回来,你如果能够解决掉分词和标注的问题,那么构造一个比较好的布尔查询语句也就很容易了,在solr中写业务相关的QParser插件,然后重写QParser的parse方法,就可以得到对应的标准lucene查询语句了,见下代码:

@Override
public Query parse(){
    reset();
    //如果是*则构造一个通配符查询,返回所有结果
    if(this.qstr.equals("*")){
        String defaultField = getReq().getSchema().getDefaultSearchFieldName();
        Query q = new WildcardQuery(new Term(defaultField,"*"));
        return new NiuniuQuery(q);
    }
    long t1 = System.currentTimeMillis();
    String df = req.getSchema().getDefaultSearchFieldName();
    Analyzer analyzer = req.getSchema().getQueryAnalyzer();
    TokenStream source;
    try {
        source = analyzer.tokenStream(df, new StringReader(this.qstr));
        source.reset();
    } catch (IOException e) {
        return null;
    }
    CachingTokenFilter buffer = new CachingTokenFilter(source);
    TermToBytesRefAttribute termAtt = null;
    PositionIncrementAttribute posIncrAtt = null;
    TypeAttribute type = null;
    int numTokens = 0;

    buffer.reset();

    if (buffer.hasAttribute(TermToBytesRefAttribute.class)) {
        termAtt = buffer.getAttribute(TermToBytesRefAttribute.class);
    }
    if (buffer.hasAttribute(PositionIncrementAttribute.class)) {
        posIncrAtt = buffer.getAttribute(PositionIncrementAttribute.class);
    }
    if (buffer.hasAttribute(TypeAttribute.class)){
        type = buffer.getAttribute(TypeAttribute.class);
    }

    int positionCount = 0;
    boolean severalTokensAtSamePosition = false;

    boolean hasMoreTokens = false;
    if (termAtt != null) {
        try {
            hasMoreTokens = buffer.incrementToken();
            while (hasMoreTokens) {
                numTokens++;
                int positionIncrement = (posIncrAtt != null) ? posIncrAtt
                        .getPositionIncrement() : 1;
                if (positionIncrement != 0) {
                    positionCount += positionIncrement;
                } else {
                    severalTokensAtSamePosition = true;
                }
                hasMoreTokens = buffer.incrementToken();
            }
        } catch (IOException e) {
            // ignore
        }
    }
    try {
        // rewind the buffer stream
        buffer.reset();
        // close original stream - all tokens buffered
        source.close();
    } catch (IOException e) {
        return null;
    }

    BytesRef bytes = termAtt == null ? null : termAtt.getBytesRef();

    if (numTokens == 0)
        return null;
    else {
        q = new BooleanQuery(positionCount == 1);
        for (int i = 0; i < numTokens; i++) {
            try {
                boolean hasNext = buffer.incrementToken();
                assert hasNext == true;
                termAtt.fillBytesRef();
            } catch (IOException e) {
                // safe to ignore, because we know the number of
                // tokens
            }
            termBelong(type, bytes);//解析这个term应该去哪个field中查询
        }
        generateQuery();//根据解析结果构造布尔查询,很确定的信息直接用AND,不太确定的就拿OR
        System.out.println("QP解析用时:");
        System.out.println(System.currentTimeMillis() - t1);
        return new NiuniuQuery(q);
        //return q;
    }
}

当然query的预处理没有在这里处理,不过例如query截断、特殊字符处理、归一化等方案交给直接调用solr搜索服务的后台就好了

为了能够在solr中使用,需要扩展QParserPlugin插件,非常简单:

public class NiuniuQueryParserPlugin extends QParserPlugin{
    public void init(NamedList args) {
    }

    @Override
    public QParser createParser(String qstr, SolrParams localParams, SolrParams params, SolrQueryRequest req) {
        return new NiuniuQueryParser(qstr, localParams, params, req);
    }

}

当然如果想做个性化排序,可以在QP里把用户id对应的你们算法同学产出的标签或者偏好数据实时获取到(例如一个用户天天买水果,那么他搜苹果的时候,你们就该给真正的苹果多加点分了,在哪里加就看下一篇文章讨论啦!)

最后,在solr的solrconfig.xml文件中定义:

<queryParser name="niuniuparser" class="com.niuniu.search.NiuniuQueryParserPlugin"/> 

然后就可以构造搜索串:hostname:port/solr/select?q=上海浦东新区蔡伦路&defType=niuniuparser ,这样就可以按照开头的“完美搜索”思路去应对这次搜索了。

最后,QP看起来简单,其实可以很复杂的哟,单拿分词一项出来,够你折腾好久了

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值