join的时候一般有如下的特点:
数据集较大,但是能够join的数据相对非常非常的少。
1. 为了提高join的效率一般有两种做法
1.1 Cartesian product的时候用cost较小的function来判断其相似度不能达到阈值,从而避免用cost较大的相似度判断function
1.2 在join操作之前,通过某种方法产生候选集,将一定不会相似的记录prune掉。在做prune算法设计的时候要注意:被prune掉的记录中不能含有正确的解,也就是不允许false positive。
2.
待续。。