(序言:我既不是统计学家,也不是程序员,我在人文学科中工作,所以我的灵魂是怜悯的).
我需要计算R中一系列点之间的欧氏距离.我一直在使用dist(),如下所示:
> x
> y
> dist(rbind(x,y))
x
y 10
到现在为止还挺好.但是当我看到我的结果(真实数字)时,他们是非常糟糕的.所以我想到我的R脚本是从错误的列抓取数据.但我检查了,而不是.
所以我开始玩玩具数字,我是惊喜.上述示例(垂直线)正常工作,如下(水平线):
> x
> y
> dist(rbind(x,y))
x
y 10
但是当两点形成的线对角线时,就会出现陌生的情况:
> x
> y
> dist(rbind(x,y))
x
y 0
距离0?咦?那是不对的
当点数是相同的(这在我的数据中很有可能),我们下了兔子洞:
> x
> y
> dist(rbind(x,y))
x
y 14.14214
这不应该是0?毕竟,这些点是相同的,所以它们之间可以没有距离.
为了防止dist()有问题,我试图用维基百科手动实现公式.相同的结果:
> sqrt(sum((x - y) ^ 2))
[1] 14.14214
如上所述,我的数学背景很小,所以我完全期望这里的错误是我的.如果是这样,请说明是什么以及如何纠正.但是从现在的立场来看,似乎有些事情是非常错误的.
最糟糕的是,我无法分析我的数据.