展示两组数据的显著差异,其实相当于是一个分类的问题。
而数据分类则相当于是找出两组数据之间的不同之处。
而这一点往往是带有主观性的。
比如把几个人和猴子放在一起,常规的分类思路就是人和人一类,猴子则归为一类。
但是这样分类的依据是什么呢?
原因就是人和人之间有更多的相似度,但是也仅此而已了。
为什么这么讲呢?
因为这样的分类方式是比较主观的。
在上面的例子中,加入“苍蝇”这个样本,分类方式会产生怎样的变化呢?
人们就可以把人和猴子归为一类,因为跟苍蝇这个物种比起来,人和猴子都是哺乳动物。
再比如,两个人和一只鼠,按照这个条件,人和人一类,鼠一类,是人之常情。
但是如果这两个人是一个男孩一个女孩,而鼠是雄性的呢?
是不是又可以男孩和鼠一类,女孩一类呢?
这又说明,挖掘的样本信息越丰富,可以分类的结果也会越多种多样。
而如果没有具体的分类标准,我们便不能说两个看上去显著不同的物体是不可以归为一类的。
就好像两台电脑和一个鼠标,如果你后面知道了两台电脑一个是联想的一个是华硕的,而鼠标是联想的。怎样去区分都是可以自圆其说的。
甚至你可以把华硕电脑和联想鼠标划为一类,标准设置成“非联想电脑”。
这就好像射完箭再画靶子,能否命中靶心取决于你把靶子画在哪里。
同时这也说明了,用不同的特征去分类,结果会产生很大的变化。
而看待问题的角度,往往决定了分类的结果。
就好像SVM分类器,把数据升高一个维度,就可以找到一个正确分开数据的角度。
那么把数据维度扩展到n维,是不是可以找到n多个分类结果呢?
难怪有句话这么说:“拷问数据足够久,数据就会招供。”

被折叠的 条评论
为什么被折叠?



