mongodb去除重复的数据(二)

前天因为工作需要,开始着手对数据库中两千多万的数据中其中一个字段重复的数据进行去重。
原本使用一些测试的数据测试后,前天写的那个方法是可行的,但是当面对这个两千万的真实数据时,我却发现这方法有些不顶用了,最终只好又经过若干次的尝试,总算成功去重。

最终总结一下整个过程:

1、这个方法就是上一篇所讲的,利用mongodb的游标 dbcursor和while循环的方式。
var res=db.test.find();
while(res.hasNext()){
      var res1=db.test.find(); 
      var re=res.next();
      while(res1.hasNext()){
              var re1=res1.next();
              if(re.age==re1.age){ 
                   db.test.remove({"age":re1.age}); 
               }
       } 
       db.test.insert(re); 
}

      原本我用了10000调数据进行测试,循环完毕后,就如预期一样只剩下1条数据。 但是面对两千万的数据后,执行到一半就报错,并且一直卡在那里。
      我也不知道这情况究竟算是正常还是不正常,反正是等了半天的时间还是卡在那里,整个集合的数据也没有任何的变化。
      我想大概是一次性处理的数据太多了吧,我的循环那样执行下去,就需要循环两千万乘以两千万次,这个次数是在国语庞大,于是只好采取迂回的措施,把两千万拆分成20个集合,一个集合只装一百万。
      但是即便是一百万的数据,当我在执行这个方法时,还是卡在了那里。  于是我不禁就想,难到我要把20个集合再拆分成四十个集合,一个只装五十万?
      四十个集合,这工作量貌似有点太大,我选择无奈的放弃。

2、第一种方法失败的情况下,我只好另寻他途,然后便想到了唯一索引的方法。
    唯一索引的dropDups可以在建立索引时删除重复的数据,我想这个总应该是可行的吧。 然而事实却证明我还是错了,最终还是以失败告终。
    在我执行如下方法 建立唯一索引的时候,又是屡屡报错,并给我意外退出      

db.alarm1.ensureIndex({"msgContent":1},{"unique":true,dropDups:true})
  
  直接在建立索引的时候删除数据无法达到目的,我只好再次采用迂回的方式,在一个全新的空集合中建立一个索引 :
   
 db.alarmBack.ensureIndex({"msgContent":1},{"unique":true})

    然后再把数据重新的导入到这个已经存在了唯一索引的集合中,我想应该可以了吧。
    但是,无奈的是,又失败了!
    因为我从生产数据库导出的数据用了mongodump的方式,所以导入的时候也用的mongorestore的方式,而这个方式实际上是恢复数据,在恢复数据的同时,连索引也一起恢复了。
    最让我抓狂的是,恢复索引也就罢了,竟然还在恢复的时候把我建的唯一索引给干掉了!这样一来,唯一索引没了,自然无法达到去重的目的,方法再次以失败告终。
    我不知道mongodump和mongorestore是否有相关参数可以指定不要索引,有空了一定要试一下(太坑了吧)。

3、上述两个方法都失败了,第二个方法失败的同时,我就想到要试一下另外一种导入和导出的方法:mongoimport和mongoexport。
    我隐约记得这两个方法导入导出的时候速度好像比mongodump和mongorestore慢,但是现在没有办法的情况下只好一试。
    但是事实证明这个方法在这种情况下居然可行,最终我使用第二种方法中的第二种方式,先在空白集合中建一个唯一索引,然后导入要去重的数据,成功的对这两千多万的数据去重。
    不过真的是慢啊,单纯的导入,我用mongodump连mongoimport一半的时间都没用到,不知道是否是因为姿势不对,暂且也不想去管它了!
    任务结束,但是心中还留下一些疑问,我想如果第二种方法中我导出的元数据是没有索引的,那么当我导入的时候,不知道它是否还会把我原本的唯一索引干掉;还有就是,或许直接用java代码处理导出的文件也可以,甚至可能更快,不过暂时有别的事情,也就不做尝试了。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 将股票数据插入到 MongoDB 中时,可以使用 MongoDB 的唯一索引功能来避免重复插入相同的数据。 具体而言,可以在插入数据前,先检查该数据是否已经存在于 MongoDB 中。若数据已存在,则可以选择更新该条数据,或者直接跳过该数据,不进行插入操作。 为了实现这一功能,可以在 MongoDB 中为股票数据的唯一标识字段(比如股票代码)创建唯一索引。这样,在插入数据时,如果插入的数据已经存在于 MongoDB 中,则会触发唯一索引的限制,从而防止数据重复插入。 除此之外,还可以使用 MongoDB 的 upsert(更新/插入)操作,在执行插入操作时,如果该数据已经存在,则会执行更新操作。这样既能够避免数据重复插入,又能够保证数据的更新。 ### 回答2: 要避免将重复的股票数据插入到MongoDB中,我们可以采取以下措施: 1. 创建唯一索引:在MongoDB中,我们可以为股票数据集合中的某个字段(如股票代码)创建唯一索引。这样一来,当尝试插入具有相同股票代码的记录时,MongoDB将会报错并拒绝插入,从而避免重复数据的插入。 2. 使用upsert操作:在插入股票数据之前,我们可以通过使用upsert操作来检查是否已存在相同股票代码的记录。通过在插入时使用upsert操作,MongoDB将会根据查询条件来执行插入或更新操作。如果查询条件匹配到一条记录,则进行更新操作;如果查询条件未匹配到任何记录,则执行插入操作,从而避免重复插入相同股票代码的数据。 3. 通过数据预处理进行筛选:在将股票数据插入到MongoDB之前,我们可以通过预处理步骤对要插入的数据进行筛选。可以使用算法或规则来过滤出具有不同股票代码的数据,确保只有非重复数据被插入到MongoDB中。 4. 进行数据清洗和去重:在将股票数据插入到MongoDB之前,可以对数据进行清洗和去重操作,去除其中的重复数据。可以使用一些数据清洗的方法,比如使用唯一性约束、数据合并或使用数据清洗工具进行重复数据的清除。 总之,通过创建唯一索引、使用upsert操作、数据预处理和数据清洗等多种方法,我们可以有效避免将重复的股票数据插入到MongoDB中。 ### 回答3: 要避免股票数据在插入到MongoDB中时重复,可以考虑以下几种方法: 1. 设置唯一索引:在MongoDB集合中创建一个唯一索引,以确保插入的数据在某个字段上是唯一的。可以选择使用股票代码、日期、或者其他字段作为唯一索引的依据。 2. 使用upsert操作:在插入数据时,可以使用upsert(update + insert)操作,如果插入的数据已经存在,就更新该数据;如果数据不存在,则插入新的数据。 3. 使用更新操作:在插入数据之前,先进行查询,判断是否已存在相同的数据。如果存在相同数据,可以选择更新操作,即更新已存在的数据。如果不存在相同数据,则进行插入操作。 4. 数据去重处理:在插入数据之前,可以先对待插入的数据进行去重处理,排除已存在的数据。可以通过在MongoDB中对已有数据进行查询,然后将待插入数据中已存在的数据去除,只插入新的数据。 5. 使用批量插入:将待插入的数据进行批量插入,使用MongoDB的批量插入操作,会自动过滤掉已存在的数据,只插入新的数据。 以上是几种可以避免股票数据重复插入进MongoDB的方法,根据具体的需求和实际情况选择适合的方法来实现数据去重

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值