数据分类与显著差异

王者杯·14天创作挑战营·第8期 10w+人浏览 475人参与

展示两组数据的显著差异,其实相当于是一个分类的问题。

而数据分类则相当于是找出两组数据之间的不同之处。

而这一点往往是带有主观性的。

比如把几个人和猴子放在一起,常规的分类思路就是人和人一类,猴子则归为一类。

但是这样分类的依据是什么呢?

原因就是人和人之间有更多的相似度,但是也仅此而已了。

为什么这么讲呢?

因为这样的分类方式是比较主观的。

在上面的例子中,加入“苍蝇”这个样本,分类方式会产生怎样的变化呢?

人们就可以把人和猴子归为一类,因为跟苍蝇这个物种比起来,人和猴子都是哺乳动物。

再比如,两个人和一只鼠,按照这个条件,人和人一类,鼠一类,是人之常情。

但是如果这两个人是一个男孩一个女孩,而鼠是雄性的呢?

是不是又可以男孩和鼠一类,女孩一类呢?

这又说明,挖掘的样本信息越丰富,可以分类的结果也会越多种多样。

而如果没有具体的分类标准,我们便不能说两个看上去显著不同的物体是不可以归为一类的。

就好像两台电脑和一个鼠标,如果你后面知道了两台电脑一个是联想的一个是华硕的,而鼠标是联想的。怎样去区分都是可以自圆其说的。

甚至你可以把华硕电脑和联想鼠标划为一类,标准设置成“非联想电脑”。

这就好像射完箭再画靶子,能否命中靶心取决于你把靶子画在哪里。

同时这也说明了,用不同的特征去分类,结果会产生很大的变化。

而看待问题的角度,往往决定了分类的结果。

就好像SVM分类器,把数据升高一个维度,就可以找到一个正确分开数据的角度。

那么把数据维度扩展到n维,是不是可以找到n多个分类结果呢?

难怪有句话这么说:“拷问数据足够久,数据就会招供。”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

裤裤兔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值