mahout lucene vector 错误

昨天mahout将索引转换为向量时总是报错,记录如下:


首先,建立索引时一定要将filed设置为向量,如:

Field fld = new Field(“text”, “foo”, Field.Store.NO, Field.Index.ANALYZED, Field.TermVector.YES);

其次,启动hadoop,切换到MAHOUT_HOME目录,运行:

/bin/mahout lucene.vector –dir <PATH TO INDEX>/example/solr/data/index/ –output /tmp/foo/part-out.vec –field title-clustering –idField id –dictOut /tmp/foo/dict.out –norm 2

以前有bug会报错如下:

WARNING: No lucene.vector.props found on classpath, will use command-line argume
nts only
Aug 5, 2010 11:17:40 AM org.slf4j.impl.JCLLoggerAdapter error
SEVERE: Exception
org.apache.commons.cli2.OptionException: Unexpected 2 while processing Options
at org.apache.commons.cli2.commandline.Parser.parse(Parser.java:99)
at org.apache.mahout.utils.vectors.lucene.Driver.main(Driver.java:125)

解决办法:将mahout/conf 下的lucenevector.props 改为 lucene.vector.props即可

昨天我碰到的错误是将上述命令 --flag 写成了-flag, 汗。查找了N多资料,最后写信给sean.owen。很快回复指出我的错误,再次感谢。

今天运行时碰到如下错误:

lucene.LuceneIterator: There are too many documents that do not have a term vector for title-clustering
Exception in thread “main” java.lang.IllegalStateException: There are too many documents that do not have a term vector for title-clustering.

将其中的--field 由contents换为另外一个field name 则程序可以运行,不知何故。

今天终于搞清楚是analyzer的问题,如果使用mahout自带的lucene analyzer那么不会报错,即时是lucene 自带的中文分词。因为我用的是中科院中文分词,可能分词对内容没有分出来,估计这种可能性比较大,下一步解决这个问题。


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值