简单介绍一下Jaccard系数:广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。(有另一种系数也称为Tanimoto系数)。该系数用EJ表示,由下式定义:
EJ(x,y)=(x*y)/(||x|*||x||+||y||*||y||-x*y)
其公式与余弦相似度的计算有点相似
http://hi.baidu.com/soulingm/blog/item/28ff41f88f43586a024f56d4.html
http://www.cnblogs.com/TtTiCk/archive/2007/07/09/811644.html