2017年12月_weideng_san

12月

原创 Spark中的稀疏向量SparseVector类的源码解读

首先纠正一下标题，这个类不是spark的源码中的，而是scala的源码中的，但是在spark源码中经常用到它，所以把把。稀疏向量，底层基于索引数组和值数组共同实现。该类的核心思想是用两个数组，一个记录原始向量中非零元素的值，另一个记录原始向量中非零元素在原始向量中的位置。一共有三个数据成员，size记录原始向量的长度，indices数组为索引数组，values数组为值数组，索引数组和值数组的长度必

2017-12-20 23:44:22 6112

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人