小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题

小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题

最近在测试小叮咚分词应用于weblucene搜索引擎的效果。

我们使用的源数据XML格式文件大概1.2G。

创建完成后的索引文件对比如下:

源文件:1.2G
小叮咚分词生成的索引文件:2217MB
二元分词生成的索引文件:2618MB 两者相差:401M

更详细的对比可以查看:中文分词和二元分词综合对比
下面是一份对索引文件的对比,可以看出主要的差别在于项(term)信息的差别。

索引文件列表(121M)小叮咚分词(146M)二元分词
deletable44
_fg4.f1019K19K
_fg4.f1119K19K
_fg4.f1219K19K
_fg4.f1319K19K
_fg4.f1919K19K
_fg4.fdt80M80M域值
_fg4.fdx156K156K域索引
_fg4.fnm135135标准化因子
_fg4.frq12M23M项频数
_fg4.prx26M36M项位置
_fg4.tii15K74K项索引
_fg4.tis1.1M5.8M项信息
segments1717


在测试中碰到了2个问题,
1、内存泄漏
内存泄漏有两种情况:
一、随着时间的推移内存使用量逐渐增加(内存泄漏?),可以通过linux下的top命令观察到;
二、在程序运行半个小时候,内存使用量忽然增加,这时一般cpu的占用率也同时增加。
2、cpu占用率高
cpu占用率高和内存占用高成正比,就是当内存增长到150M左右的时候,cpu使用率就跳到了99.9%。

所以现在看来主要要解决内存使用量不断增加的问题。

lhelper也推荐了不少工具:
http://www.samspublishing.com/articles/article.asp?p=23618&seqNum=7&rl=1
http://tech.ccidnet.com/pub/article/c1112_a265199_p1.html

check java memory leak
tips

memory leaks , Be Gone

不知道大家在这方面有没有分享的经验。

相关连接:
[sandbox]Lucene中文分词的2个试验模块 » gRaSSland开发日记

BEA releases JRockit 5.0 update and Memory Leak Detector tool

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值