好记性不如烂笔头,记一下:
NetflixDataPrep(准备数据) -> NetflixCanopyMaker(产生canopy中心) -> NetflixCanopyData(分配所有点到各canopy) -> NetflixKMeansIter(进行k-means聚类)
假设数据记录条数为n, 第二步产生的canopy数量为c, 那第三步计算量则为 n * c,就算用了mapper计算量也非常大。一定要改进成增量式的方法。 研究一下~~
NetflixDataPrep(准备数据) -> NetflixCanopyMaker(产生canopy中心) -> NetflixCanopyData(分配所有点到各canopy) -> NetflixKMeansIter(进行k-means聚类)
假设数据记录条数为n, 第二步产生的canopy数量为c, 那第三步计算量则为 n * c,就算用了mapper计算量也非常大。一定要改进成增量式的方法。 研究一下~~