solr 3.4 问题小记

1、索引PDF乱码

这种情况只发生在索引某些pdf文件,在网上找了很久,帖子都是很老的了,一时不知如何解决,于是到solr的contrib/extraction/lib目录下面找找看pdf使用的库:pdfbox-1.3.1.jar、fontbox-1.3.1.jar和jempbox-1.3.1.jar,再到官网上看看,发现最新的版本已经到1.6.0 了,索引下载回来替换掉原有的测试看看。在替换掉这三个jar包之后,重新索引之前乱码的文档,然后搜索,一切OK!

 

2、搜索时,某些字段返回值太大,影响使用。这个最后在stackoverflow上找到解答了,这里非常感谢作者:http://stackoverflow.com/questions/3452665/how-do-i-return-only-a-truncated-portion-of-a-field-in-solr

具体操作如下:

添加搜索参数:

fl=id,name&

hl=true&

hl.fl=attr_content&

f.attr_content.hl.snippets=2&

f.attr_content.hl.alternateField=attr_content&

hl.maxAlternateFieldLength=300

 

第一行定义查询结果返回的字段,第二行定义使用高亮显示关键字,第三行定义需要高亮的字段,第四行我的理解是字段内容切片数,第五行第一高亮字段的可选字段,第六行是定义最大长度300.

 

 

3、在索引某些大文件时,会发生内存溢出,不过这个问题在第一个问题解决之后,暂时没有发生,后面还需要测试,以判断是否真正解决。

补充,通过仔细观察,发现如果PDF中使用了很多字体,这个时候会报错,内存溢出,针对这个的解决办法是设置tomcat启动参数,加大java虚拟机内存。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值