Lucene 需要索引的文本文件太大,怎么解决?


2010-04-01 16:34 有问题的过路人  |  分类:JAVA相关  |  浏览1599次
我用的lucene版本是3.0.1,当我索引到某一个大文本文件是(大约有10M)报了内存溢出,也就说这个字符串太大了,我试过把虚拟机最大内存设置更大(-Xmx),可以解决问题,但是我想试着改代码来解决,不知道有没有哪位朋友遇到故噢累死问题,有什么好的解决办法没有?
以下是部分代码
String content = FileUtils.readFileToString(file, "UTF-8");
Document document = new Document();
document.add(new Field("content",content,Field.Store.YES,Field.Index.ANALYZED));
document.add(new Field("path",file.getAbsolutePath(),Field.Store.YES,Field.Index.NOT_ANALYZED));
indexWriter.addDocument(document);
抛出的异常:
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Arrays.java:2882)
at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:100)
at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:515)
2010-04-02 22:06 提问者采纳
就报错来看,还没有用到Lucene就出错了,意思是只到第一行就虚拟机内存溢出了,可以考虑把源文件进行切割,如把10M的文本切成5个1M的,建议你试一下

   给一个可以切分文件的程序,可把它作为预处理的一部分

public static void splitToSmallFiles(File file, String outputpath) throws IOException {
  
  int filePointer = 0;
  
  int MAX_SIZE = 10240000;
  
  BufferedWriter writer = null;
  BufferedReader reader = new BufferedReader(new FileReader(file));
  StringBuffer buffer = new StringBuffer();
  String line = reader.readLine();
  
  while (line != null) {
   buffer.append(line).append("\r\n");
   if (buffer.toString().getBytes()().length >= MAX_SIZE)
   {
    writer = new BufferedWriter(new FileWriter(outputpath + "output" + filePointer + ".txt"));
    writer.write(buffer.toString());
    writer.close();
    filePointer++;
    
    buffer = new StringBuffer();
   }
   line = reader.readLine();
  }
  
  writer = new BufferedWriter(new FileWriter(outputpath + "output" + filePointer + ".txt"));
  writer.write(buffer.toString());
  writer.close();

}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值