几个月来,我一直在建立计算机科学论文的图表,现在,我已经加载了几千本,我意识到其中有很多重复。
它们不是重复的,因为有多个条目具有相同的标识符,但是具有不同的标识符,但似乎是同一篇论文!
例如,有几篇名为“在Taos操作系统中进行身份验证”的论文:
http://dl.acm.org/citation.cfm?id=174614
http://dl.acm.org/citation.cfm?id=168640
据我所知,这是同一篇论文发表在两个不同的期刊上。
现在,在这种情况下,很容易对这些论文的标题进行字符串相似性比较,并意识到它们是相同的。 我以前曾使用过出色的重复数据删除库来执行此操作,并且在Berlin Buzzwords 2014上也有一篇