MongoDB查找统计所有重复数据并返回总数

本文介绍如何使用MongoDB内置查询语句实现数据去重,包括返回所有重复数据的具体信息、统计重复数据总量及删除重复数据的方法。
摘要由CSDN通过智能技术生成

在实际开发过程中,遇到了千万级数据量的数据库表中存在重复数据。虽然可以通过编写java脚本查找去重,但不如直接使用 mongo 查询语句操作来得方便,以下为返回所有重复数据,统计重复数据总数和删除重复数据的具体操作:

1. 返回 shipDivide 表中所有重复数据的具体信息:

db.getCollection('shipDivide').aggregate([{
        '$group': {
            '_id': {
            'mmsi': '$mmsi',
            'vesselname': '$vesselname',
            'type': '$type',
            'dt': '$dt',
            'flight_line': '$flight_line',
            'lon': '$lon',
            'lat': '$lat',
            'pos_time': '$pos_time',
            'speed': '$speed',
            'course': '$course'
            },
            'uniqueIds': {
                '$addToSet': '$_id'
            },
            'count': {
                '$sum': 1
            }
        }
    },
    {
        '$match': {
            'count': {
                '$gt': 1
            }
        }
    }
],
{allowDiskUse: true}
)

重复数据已分类展示 

2. 返回重复数据总量

加上 { "$count": "total" } 即可

db.getCollection('shipDivide').aggregate([{
        '$group': {
            '_id': {
            'mmsi': '$mmsi',
            'vesselname': '$vesselname',
            'type': '$type',
            'dt': '$dt',
            'flight_line': '$flight_line',
            'lon': '$lon',
            'lat': '$lat',
            'pos_time': '$pos_time',
            'speed': '$speed',
            'course': '$course'
            },
            'uniqueIds': {
                '$addToSet': '$_id'
            },
            'count': {
                '$sum': 1
            }
        }
    },
    {
        '$match': {
            'count': {
                '$gt': 1
            }
        }
    },
    { "$count": "total" }
],
{allowDiskUse: true}
)

3. 删除重复数据

db.getCollection('shipDivide').aggregate([{
        '$group': {
            '_id': {
            'mmsi': '$mmsi',
            'vesselname': '$vesselname',
            'type': '$type',
            'dt': '$dt',
            'flight_line': '$flight_line',
            'lon': '$lon',
            'lat': '$lat',
            'pos_time': '$pos_time',
            'speed': '$speed',
            'course': '$course'
            },
            'uniqueIds': {
                '$addToSet': '$_id'
            },
            'count': {
                '$sum': 1
            }
        }
    },
    {
        '$match': {
            'count': {
                '$gt': 1
            }
        }
    }
],
{allowDiskUse: true}
).forEach(function(doc)  {
       doc.uniqueIds.shift();
       db.shipDivide.remove({_id : {$in: doc.uniqueIds}})
})

 

可以看到,已经删除重复数据 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值