层次聚类的时间控制

 聚类的关键在于根据数据特征导出距离函数。找到距离函数,聚类就成功了一半了。距离函数包括两个样本直接的欧式距离,余弦相似度,person相似度等等。根据不同的情景,选择不同距离函数。距离函数可以另外增加一些类别信息,如控制每个类别下样本的个数。

(1)控制聚类的层数非常重要。控制层数,可以控制,最终的聚类结果,关键是减少时间。
(2)当有几万个样本,要聚成几千个类的时候。减少每个样本和其他样本的比较个数非常重要。

 

怎么理解数学:首先搞清楚问题,直观理解问题的实质,最后才是看怎么用数学的语言描述问题,解决问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值