只写干货
写了个爬虫,爬了点数据。由于没有做好爬虫重启和数据库检索,爬取的数据有重复。
如何查看未重复数据的数量:
进入命令行,切换到mongo shell;
use 你的数据库名;
db.要操作的表名.distinct("针对数据进行区分的键名").length
编写一个去重的脚本
mongodb 在内部是用js来管理的。所以,写一个js文件:
var duplicates = [];
db.你的collection名.aggregate([
{ $group: {
_id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"},
dups: { "$addToSet": "$_id" },
count: { "$sum": 1 }
}},
{ $match: {
count: { "$gt": 1 }
}}
],
{allowDiskUse: true}).forEach(function(doc) {
doc.dups.shift();
doc.dups.forEach( function(dupId){
duplicates.push(dupId);
}
)
})
printjson(duplicates);
db.你的collection名.remove({_id:{$in:duplicates}})
执行js脚本
在shell中,注意不是在mongo shell 中,输入mongo 你的数据库名 刚才写的js文件的绝对路径
不到2秒就完事儿了,执行速度还可以。不过也可能是我数据量比较小,原始数据约148000条,重复的约有14000条。
后记
重要的还是要做index,在插入的时候就检查。