1.数据量大于10万采用随机梯度下降,效果不错,大大的节约时间成本 2.数据量小于1万的可以采用kmeans聚类算法,无效果采用特殊聚类或者GMM模型。大于1万的采用minibatch kmeans算法。使用kmeans聚类的前提是聚类类别数量知道。 3.聚类类别数量未知的情况下,数据量小于1万时,采用meanshift或者VBGMM模型,大于1万时,就咩有什么有效的算法 4.聚类算法是建立在没有标记样本的数据,属于无监督模型