1。 编码问题:
MoreLikeThisQuery中的
BooleanQuery bq= (BooleanQuery) mlt.like(new ByteArrayInputStream(likeText.getBytes())); likeText.getBytes() 这个出的问题,没有指定编码,会自动读取系统默认编码。
在linux下运行java程序,它读取来的系统默认字符集市iso8859-1,想让让它在utf-8下运行,方案:
在启动程序时多加上-Dfile.encoding=UTF-8参数
2。查询特定范围内的相似
构造一个BooleanQuery ,然后再在里面添加MoreLikeThisQuery 和你的TermQuery(或者其它query),查询的时候查询那个BooleanQuery 就可以了。
BooleanQuery comboQuery = new BooleanQuery();
String[] moreLikeFields = { "title"};
MoreLikeThisQuery mquery = new MoreLikeThisQuery(kw, moreLikeFields, analyzer);
// 设置停用词
mquery.setStopWords(stopWords);
。。。。。。
Term term = new Term(fieldname,termname);
TermQuery tquery = new TermQuery(term);
comboQuery.add(mquery, Occur.MUST);
comboQuery.add(tquery, Occur.MUST);