MongoDB去除重复数据(只保留一个)

19 篇文章 0 订阅
14 篇文章 0 订阅

目录

直接对数据库进行操作

使用py进行去重

 成功截图​编辑

 一个实例

集合结构

 查询代码


直接对数据库进行操作

db.getCollection("你的集合名").aggregate([
    {
//使用aggregate聚合查询重复数据
//$group中是查询条件,根据你的字段来聚合相同的数据;
//$count用来统计重复出现的次数, $match来过滤没有重复的数据;
//$addToSet将聚合的数据id放入到dups数组中方便后面使用;

        $group:{_id:{你的字段1:'$你的字段1',你的字段2:"$你的字段2"},count:{$sum:1},dups:{$addToSet:'$_id'}}
    },
    {
        $match:{count:{$gt:1}}
    }

    ]).forEach(function(it){
         //保留第一个数据,防止所以重复数据全部被删除
         it.dups.shift();
         //执行删除   
         db.getCollection("wallhaven.cc").remove({_id: {$in: it.dups}});

    });

使用py进行去重

from pymongo import MongoClient

# 打开集合
client = MongoClient(address, port)
db = client.db_name
collection = db.collection_name

patents = []  # 存储已遍历过的字段
count = 0
for item in collection.find():
    if item['你的字段'] not in patents:  # 判断当前文档是否在之前已经遍历过
        patents.append(item['你的字段'])  # 该文档设置成已遍历
    else:
        collection.delete_one(item)  # 删除重复文档

 成功截图

 一个实例

集合结构

 查询代码

db.getCollection("wallhaven.cc").aggregate([
    {
        $group:{_id:{url:'$url',tag:"$tag"},count:{$sum:1},dups:{$addToSet:'$_id'}}
    },
    {
        $match:{count:{$gt:1}}
    }

    ]).forEach(function(it){
         it.dups.shift();
         db.getCollection("wallhaven.cc").remove({_id: {$in: it.dups}});

    });

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

桂亭亭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值