聚类的关键在于根据数据特征导出距离函数。找到距离函数,聚类就成功了一半了。距离函数包括两个样本直接的欧式距离,余弦相似度,person相似度等等。根据不同的情景,选择不同距离函数。距离函数可以另外增加一些类别信息,如控制每个类别下样本的个数。
(1)控制聚类的层数非常重要。控制层数,可以控制,最终的聚类结果,关键是减少时间。
(2)当有几万个样本,要聚成几千个类的时候。减少每个样本和其他样本的比较个数非常重要。
怎么理解数学:首先搞清楚问题,直观理解问题的实质,最后才是看怎么用数学的语言描述问题,解决问题。