solr中对于分词结果的获得即分析

最新推荐文章于 2021-04-02 10:04:12 发布

iteye_14612

最新推荐文章于 2021-04-02 10:04:12 发布

阅读量798

点赞数

分类专栏： solr 文章标签： solr 分词结果

本文链接：https://blog.csdn.net/iteye_14612/article/details/82679646

版权

solr 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

在使用solr的时候，在管理页面的analysis中可以发现有对词的分析的展示，在solrj中同样提供了方法获得，记个笔记，方便以后再用的着。

使用solrj获得分词结果要使用FieldAnalysisRequest类。

solrj提供的接口的逻辑和管理页面的逻辑一样，先是区分建立索引和查询两种情况（比如ik的使用时就是在建立索引的时候不适用智能分词，而在查询时启用智能分词），每种情况的分词时再区分是哪个域（fieldName)或者是域的类型（filedTypes)。对于第一个体现在FieldAnalysisRequest的fieldValue和query上，如果是建立索引时的分词就使用fieldValue，否则使用query（我已经做过测试），不过比较尴尬的是solrj不支持仅仅对query的设定，即如果不设置fieldValue的话就会空指针的异常，我猜测他这个功能并不是完全模仿管理页面的分词，因为在返回的结果中他还提供了match的功能，也就是将query的和fieldValue的分词是否match体现出来，所以他不允许fieldValue为null也就可以仅仅理解为他的局限性了。对于第二个的体现是fieldNames和fieldTypes的设置上，即设置多个要匹配的分词的域的名字或者是类型，以此得到分词器，注意这里无论是name还是type都是可以设置多个的，然后再获得结果的时候指定要获得域的名字或者类型的名字。

要获得分词的结果需要使用solrServer，调用FieldAnalysisRequest.process(solrServer)方法，获得一个FieldAnalysisResponse——也就是分词的结果。在这里面结果体现在两个map中，一个是fieldName的，一个是fieldType的，可以通过调用getFieldTypeAnalysis(String type)或者getFieldNameAnalysis(String name)获得对于某一个域的分词器的处理结果，处理结果用Analysis封装。在Analysis中，同样存在建立索引时和查询时的结果，也就是对应于fieldValue和query的分词结果，这样就和上面的分析对应起来了。最终的分词结果是AnalysisPhase，对于建立索引的结果还是查询时的，都是有多个AnalysisPhase，而且一个AnalysisPhase中还有多个TokenInfo，这个我有点吃不透，为啥不是直接一个List<Token>呢？尽管在AnalysisPhase中添加了分词器的类名，但是还是搞不懂为啥要分两层。

最后上代码

public static void main(String[] args) throws SolrServerException, IOException {
	// 链接solrCloud
	CloudSolrServer server = new CloudSolrServer("10.6.8.96:2181/shard_test");
	server.setZkClientTimeout(1000*60);
	server.setDefaultCollection("article");
	FieldAnalysisRequest request = new FieldAnalysisRequest();

	request.setFieldNames(java.util.Collections.singletonList("title"));//这里可以设置多个fieldName，或者是fieldType，但是我们这里只是一个，用来作为例子
	request.setFieldValue("我来自中国山东 我们那里有很多好吃的");//设置建立索引时的分词的内容
	request.setQuery("我来自中国山东 我们那里有很多好吃的");//设置查询时的分词的内容
	
	FieldAnalysisResponse response = request.process(server);
	Analysis sis = response.getFieldNameAnalysis("title");//指定要获得的域的名字，因为上面是setFieldNames，所以这里是getFieldNameAnalysis，如果上面是setFieldTypes，则这里就要调用getFieldTypeAnalysis
		
	// 获得fieldValue的分词结果
	Iterator<AnalysisPhase> result = sis.getIndexPhases().iterator();
	while(result.hasNext()){
		AnalysisPhase pharse = result.next();
		List<TokenInfo> list = pharse.getTokens();
        for (TokenInfo info : list) {
        	System.out.println(info.getText());//info还有很多的属性，这里没有设置
        }
	}
		
	// 获得query的
	result = sis.getQueryPhases().iterator();
	while(result.hasNext()){
        AnalysisPhase pharse = result.next();
		List<TokenInfo> list = pharse.getTokens();
	       for (TokenInfo info : list) {
	       	System.out.println(info.getText());
	       }
	}
}

iteye_14612

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
solr中对于分词结果的获得即分析

在使用solr的时候，在管理页面的analysis中可以发现有对词的分析的展示，在solrj中同样提供了方法获得，记个笔记，方便以后再用的着。使用solrj获得分词结果要使用FieldAnalysisRequest类。 solrj提供的接口的逻辑和管理页面的逻辑一样，先是区分建立索引和查询两种情况（比如ik的使用时就是在建立索引的时候不适用智能分词，而在查询时启用智能分词）...
复制链接

扫一扫