1. 聚类算法有哪些;
2. Gaussianclusters?
3. K-means时间复杂度为O(knt)
4. 选择批次距离尽可能远的K个点;首先随机选取一个点作为初始点,然后选择距离与该点最远的那个点作为中心点,再选择距离与前两个点最远的店作为第三个中心店,以此类推,直至选取大k个
5. KMeans初始类簇中心点的选取?k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。1. 从输入的数据点集合中随机选择一个点作为第一个聚类中心2. 对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)3. 选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大4. 重复2和3直到k个聚类中心被选出来5. 利用这k个初始的聚类中心来运行标准的k-means算法
6. 采用 EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?用EM算法求解的模型一般有GMM或者协同过滤,k-means其实也属于EM。EM算法一定会收敛,但是可能收敛到局部最优。由于求和的项数将随着隐变量的数目指数上升,会给梯度计算带来麻烦
7. SVD和SVD++:降维,聚类隐形语义索引、信息检索; 图像压缩,推荐系统http://blog.csdn.net/u011412768/article/details/52972081