scala代码（二）

最新推荐文章于 2024-08-05 20:09:54 发布

hhtop112408

最新推荐文章于 2024-08-05 20:09:54 发布

阅读量559

点赞数

本文链接：https://blog.csdn.net/hhtop112408/article/details/84317257

版权

最近看PrefixSpan 源代码，自己用java重新写了，两个问题浪费了不少时间。

1：scala的操作符如果没有赋值，那么是不影响原来的数据结构。可以看成是不可变类。

如ReversedPrefix add(int item)
       {
           assert(item != 0);
           List<Integer> newItems = new ArrayList<Integer>(items);


           if (item < 0)
           {
               newItems.add( 0,-item );
               return new ReversedPrefix(newItems, length + 1);
           }
           else
           {
               newItems.add( 0,0 );
               newItems.add( 0,item );
               return new ReversedPrefix(newItems, length + 1);
           }
       }

我原来直接用items，没有new List，赵成错误。

2：排序的写法的问题。计算结果都是对的，但是显示的次序不对，我的是升序，但是源代码是降序，排查了一天，怀疑一切，把所有的源代码的API都测试了一遍，就是不对。后来肯定是排序的升序和降序问题，再看代码，

scala的代码，val freqItems = freqItemAndCounts.sortBy(-_._2).map(_._1)，

原来-_._2 是降序排序，前面有一个减号。根本没注意。

3：Scala的Set是唯一值。这个错误很小，只有在一个训练数据中重复多个Item，会出现排序问题。

源代码

val freqItemAndCounts = data.flatMap { itemsets =>
val uniqItems = mutable.Set.empty[Item]
itemsets.foreach { _.foreach { item =>
uniqItems += item
}}
uniqItems.toIterator.map((_, 1L))
}

应该翻译成

List<Tuple2<T, Long>> freqitemAndCount = data.toJavaRDD( ).flatMap( itemsets->
       {
           List<T> uniqItems = new ArrayList<T>();
           itemsets.stream( ).forEach( s->{
               s.stream( ).forEach( t->{
                   if (!uniqItems.contains( t ))
                   {
                       uniqItems.add( t );
                   }
               });
           });
           return uniqItems.stream( ).map( s->new Tuple2<T, Long>(s, 1L) ).collect( Collectors.toList( ) );

       })

原来错误的翻译成

List<Tuple2<T, Long>> freqitemAndCount = data.toJavaRDD( ).flatMap( itemsets->
       {
           List<Tuple2<T,Long>> list = itemsets.stream( ).flatMap( s->
           {
               return s.stream( ).map( t-> new Tuple2<T, Long>(t, 1L) );
           }).collect( Collectors.toList( ) );

           return list;


       })