Mongodb 删除重复数据的几个方法

Mongodb 删除重复的数据

最近在处理一些专利数据,从专利局爬数据的时候,总会间隙性出现中断,为了保证数据的完整性就进行了一些重复下载。将数据从几万个Excel表格中导入Mongodb后,第一步就是要去掉重复的数据。我的第一反应是写个Python小脚本,结果在执行的时候,由于数据量确实比较大,有十几万条,执行了半个小时仍不见结束。这时候才想着使用数据库的查询命令是不是可以实现去重复的功能。简单搜索实践后总结如下:
1. 使用Python小脚本去重复的代码:

# -*- coding: utf-8 -*-
#
# @Author yxiao@aliyun.com
#

import os
import io
import sys
from pymongo import *

reload(sys)  
sys.setdefaultencoding( "utf-8" )

client = MongoClient(address, port)
db_data = client.db_name
collection_patent = db_data.collection_name

patents = {}
count = 0
for patent_record in collection_patent.find({"_id":{"$ne":0}}):
    if patent_record['public_no'] not in patents.keys():
        patents[patent_record['public_no']] = patent_record
    else:
        count += 1
        collection_patent.delete_one({"public_no":patent_record['public_no']})
print count

2.使用ensureIndex建立索引来删除重复记录,此命令适用于Mongodb 3.0以下版本。在Mongodb3.0以上版本,ensureIndex已经被createIndex取代了,同时dropDups选项也已经被移除了,所以不能再使用以上命令来去掉重复数据:

db.your_collection.ensureIndex({public_no:1}, {unique: true, dropDups: true})

3.下面提供一种比较简单的巧方法:

  1. 将数据导出为JSON格式存档:
    mongoexport.exe -d database_name -c collection_name -o filename.json
  2. 清空当前集合的数据:
    db.yourcollection.remove({})
  3. 新建唯一索引:
    db.yourcollection.createIndex({public_no:1}, {unique:true})
  4. 导入之前存档的JSON文件数据:
    mongoimport -d database_name -c collection_name --upsert filename.json
    用到的几个参数选项说明:-d 数据库名 -c 集合名 -o 导出后的目录及文件名 --upsert 会根据唯一索引去掉重复记录
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值