最近在工作中遇到需要对大文本进行关键词查询。需要实现的效果为,当用户输入一个字或者一个词,要搜出包含这个字或者词的所有内容。就相当于MySQL的LIKE查询效果一样。
在这种场景下,第一时间想到的肯定是直接使用MySQL存储,然后进行查询就可以了,完全符合业务需求。但是经过尝试,当数据量比较大的时候,查询的速度慢得让人根本无法接受。
于是只能考虑其他方案,由于和搜索有关,于是想到了之前使用过的Solr。经过一系列折腾,最后得出最终方案如下。 schema设计的时候,需要自定义字段类型,使用solr.NGramTokenizerFactory分词器,并且将分片参数设置成1。 对需要进行查询的字段设置成自定义的类型。 查询条件中需要对关键字加双引号,表示不对查询词进行分词。 /select?q=question_content_list%3A"空间"&start=0&rows=1&wt=json&indent=true 查询结果响应测试。 { "responseHeader": { "status": 0, "QTime": 1, "params": { "q": "question_content_list:\"空间\"", "indent": "true", "start": "0", "rows": "1", "wt": "json" } }, "response": { "numFound": 62, "start": 0, "docs": [ { "question_content_list": [ "18088", "qq空间", "http://photo.qq.com" ], "question_id": "9DSOPHKVYF4G", "_version_": 1661304065051590660 } ] } }