Mongodb数据库去重

最新推荐文章于 2023-01-03 11:20:48 发布

Chester-zZz

最新推荐文章于 2023-01-03 11:20:48 发布

阅读量844

点赞数 1

分类专栏：数据库文章标签： MongoDB 爬虫数据数据库

本文链接：https://blog.csdn.net/u014433413/article/details/77774745

版权

数据库专栏收录该内容

1 篇文章 0 订阅

订阅专栏

只写干货

写了个爬虫，爬了点数据。由于没有做好爬虫重启和数据库检索，爬取的数据有重复。

`如何查看未重复数据的数量：`

进入命令行，切换到mongo shell；
use 你的数据库名；
db.要操作的表名.distinct("针对数据进行区分的键名").length

`编写一个去重的脚本`

mongodb 在内部是用js来管理的。所以，写一个js文件：

var duplicates = [];

db.你的collection名.aggregate([
  { $group: {
    _id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"},
    dups: { "$addToSet": "$_id" },
    count: { "$sum": 1 }
  }},
  { $match: {
    count: { "$gt": 1 }
  }}
],
{allowDiskUse: true}).forEach(function(doc) {
    doc.dups.shift();
    doc.dups.forEach( function(dupId){
        duplicates.push(dupId);
        }
    )
})
printjson(duplicates);
db.你的collection名.remove({_id:{$in:duplicates}})

执行js脚本

在shell中，注意不是在mongo shell 中，输入mongo 你的数据库名刚才写的js文件的绝对路径

不到2秒就完事儿了，执行速度还可以。不过也可能是我数据量比较小，原始数据约148000条，重复的约有14000条。

后记

重要的还是要做index，在插入的时候就检查。

Chester-zZz

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mongodb数据库去重

只写干货写了个爬虫，爬了点数据。由于没有做好爬虫重启和数据库检索，爬取的数据有重复。如何查看未重复数据的数量：进入命令行，切换到mongo shell；use 你的数据库名；db.要操作的表名.distinct("针对数据进行区分的键名").length编写一个去重的脚本mongodb 在内部是用js来管理的。所以，写一个js文件：var duplica
复制链接

扫一扫

专栏目录