t-SNE初体验

t-SNE初体验

今天用t-SNE以及tensorboard做了word embedding的可视化,简单理解了一下相关t-SNE的说明手册。
原文链接:https://distill.pub/2016/misread-tsne/
以下内容主要是对原文的概括以及个人的理解。
t-SNE多用于高维度数据的可视化。其目标是用低维度的点(多为二维)来较好地代表高维度点。

解读时需要关注以下几点:

(1)该算法是非线性的,并能够对数据进行适应,在不同区域执行不同的转换
(2)perplexity:不严格的理解,该参数反映了对local与global的平衡。它对每个点周边的临近点(close neighbors )的数量进行猜测;会对最终可视化有很复杂的影响。原文指出该值应该在5-50之间
a.当取值在该范围之外,可能造成奇怪的结果;
b.该超参数取值不应大于数据点的个数。
(3)需要进行足够的迭代次数获得稳定的结果;根据具体数据确定迭代次数。
(4)多次运行t-SNE,可能会得到不同的结果。

其他:

(1)Cluster sizes in a t-SNE plot mean nothing
t-SNE算法会根据数据集中的区域密度变化调整“距离”的定义,也就是扩展密集的簇,并收缩稀疏的簇。所以大小与实际会可预见性的不一致。
(2)Distances between clusters might not mean anything
(3)Random noise doesn’t always look random
低perplexity取值更容易造成一些其实并不存在但看起来还不错的聚类结果;因此应用中要注意对噪声点的识别。
(4)You can see some shapes, sometimes(调整perplexity)
(5)For topology, you may need more than one plot

总结

t-SNE效果很炫酷,但毕竟是将数据从高维“投映”到低维,不能要求它与事实完全一致,要在理解数据,合理调参,稳定迭代的基础上作为辅助工具使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值