最近看PrefixSpan 源代码,自己用java重新写了,两个问题浪费了不少时间。
1:scala的操作符如果没有赋值,那么是不影响原来的数据结构。可以看成是不可变类。
如ReversedPrefix add(int item)
{
assert(item != 0);
List<Integer> newItems = new ArrayList<Integer>(items);
if (item < 0)
{
newItems.add( 0,-item );
return new ReversedPrefix(newItems, length + 1);
}
else
{
newItems.add( 0,0 );
newItems.add( 0,item );
return new ReversedPrefix(newItems, length + 1);
}
}
我原来直接用items,没有new List,赵成错误。
2:排序的写法的问题。计算结果都是对的,但是显示的次序不对,我的是升序,但是源代码是降序,排查了一天,怀疑一切,把所有的源代码的API都测试了一遍,就是不对。后来肯定是排序的升序和降序问题,再看代码,
scala的代码,val freqItems = freqItemAndCounts.sortBy(-_._2).map(_._1),
原来-_._2 是降序排序,前面有一个减号。根本没注意。
3:Scala的Set是唯一值。这个错误 很小,只有在一个训练数据中重复多个Item,会出现排序问题。
源代码
val freqItemAndCounts = data.flatMap { itemsets =>
val uniqItems = mutable.Set.empty[Item]
itemsets.foreach { _.foreach { item =>
uniqItems += item
}}
uniqItems.toIterator.map((_, 1L))
}
应该翻译成
List<Tuple2<T, Long>> freqitemAndCount = data.toJavaRDD( ).flatMap( itemsets->
{
List<T> uniqItems = new ArrayList<T>();
itemsets.stream( ).forEach( s->{
s.stream( ).forEach( t->{
if (!uniqItems.contains( t ))
{
uniqItems.add( t );
}
});
});
return uniqItems.stream( ).map( s->new Tuple2<T, Long>(s, 1L) ).collect( Collectors.toList( ) );
})
原来错误的翻译成
List<Tuple2<T, Long>> freqitemAndCount = data.toJavaRDD( ).flatMap( itemsets->
{
List<Tuple2<T,Long>> list = itemsets.stream( ).flatMap( s->
{
return s.stream( ).map( t-> new Tuple2<T, Long>(t, 1L) );
}).collect( Collectors.toList( ) );
return list;
})