TomatoSCI分析日记——t-SNE

t-SNE的理论内容我这里不再赘述,网上可以搜到很多专业的理论知识。t-SNE主要是通过降维来实现聚类,而聚类则可以分为探索性聚类和验证性聚类两种。下面我们进入正题,看实例吧。


01 探索性聚类

探索性的聚类是指,我们预先不知道数据可以分为几类,想要通过一些特征变量把这一堆数据分为n个簇。比如图1,通过Feature1至4对不同ID的个体进行聚类。

探索性聚类的关键在于簇数的确定,在这里我们常常采用平均轮廓系数(Average Silhouette Width)来确定聚类的簇数(图2),我们选择峰值最高所在的簇数:2。

接下来进行分析聚类,同时我们为每个簇添加一个置信区间,这样可以更直观展示结果,图看起来更高级,同时我们会输出每个个体所属的类别和坐标,当然坐标这个结果可有可无(图3)。从图3A和B我们可以看到,两个可以完全区分,说明这些特征是区分不同类群的有效特征。


02 验证性聚类

与探索性聚类不同,验证性聚类的数据在一开始就已经分好组了,意思就是我测得了不同组的特征变量数据,随后反过来聚类并计算分类准确率验证这些特征能否准确对不同个体进行分类,如果准确率高说明这些特征是区分不同类群的关键特征,反之则需要重新寻找特征。本节数据如图4所示。

验证性分析无需再进行簇数的确定,因为数据已经事先分好3组了,接下来我们看看结果,同样的也是输出带有置信区间的聚类图和不同个体的归类结果(图5)。从图5A中我们可以看到,三个类群的区分度并不够高,互有重合。从图5B来看,簇1和簇2的聚类准确率均为80%,说明并不完全准确。


03 结语

本文章从两个角度来介绍了t-SNE的两个用途,探索性聚类就是从未知中对他们进行区分,看重的是聚类的结果,而验证性聚类就是对已知内容进行检验,更看重分类的准确率。下期将继续介绍其他类型的降维分析。

TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码“tomatosci”开放使用中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值