python2.7+mongo3.0+gridfs从mongodb下载图片及属性数据

本机环境:ubuntu14.04,python2.7,mongodb3.0
图片数据在服务器上,但是服务器的mongodb版本比较低,未设置密码,最新版的mongodb不能直接连接,因此在本机上将mongodb降到了3.0版本(此时最新版为3.4)。mongodb上最大文件内存限制为16M,不能直接存储大于16M的文件,需要通过gridfs来进行存取,因此很多图片只能通过这种方式进行保存,因此本文主要针对这种方式存储的图片的下载。
mongodb安装较为简单,此处不做说明,建议安装其官网的方法进行安装,可以自己选择版本。
下面上代码。

#-*_coding:utf-8-*-
from pymongo import MongoClient
from bson.objectid import ObjectId
from gridfs import *
import codecs, csv, json

#除了getFile是我自己写的,其他都是网上直接复制过来的,由于并没有用到这些功能,因此不能保证这些函数的正确性。
def insertFile(fs):
    with open ('/media/mamq/mongodb数据下载/pic/hehe.jpg'.decode('utf-8'),'rb') as myimage:
        data=myimage.read()        
        id = fs.put(data,filename='first')
        print id

def getFile(fs): 
    '''下载图片,并保存其属性数据到csv文件中'''
    num = 0 #记录图片数量
    keys = ["picname","photoTitle","upToNetDate","width","height","ownerName","photoId","mongo_id"] #此处字段可按照图片在fs.files中的格式自定义
    for grid_out in fs.find(no_cursor_timeout=True): #遍历图片,设置该字段为True,免得超时出错
        data = grid_out.read() #读取图片数据
        out = open('/media/mamq/mongodb数据下载/pic/%d.jpg'%num,'wb')        
        out.write(data) #存储图片
        out.close()
        #print grid_out.photo_url
        if num%100000 == 0: #每10000万张图片保存这些图片的属性数据到一个csv文件中
            metadata_file = open("/media/mamq/Seagate Backup Plus Drive/mamq/work/mongodb数据下载/metadata%d.csv"%(num/100000+1), "wb")
            csv_writer = csv.writer(metadata_file,delimiter='\t') #设置tab键\t为csv文件的分割符
            csv_writer.writerow(keys)
            print '---------------the %d 100000 pic--------------'%(num/100000+1)
        #保存图片的属性数据
        row = [str(num), grid_out.photo_title.encode('utf-8'),  grid_out.upload_date, grid_out.width, grid_out.height, grid_out.owner_name.encode('utf-8'), grid_out.photo_id, grid_out._id]
        csv_writer.writerow(row)        
        num += 1
        if num%10000 == 0:
            print num, count
    print (num)

def delFile(fs):
    fs.delete(ObjectId('560a531b0d4eae34a4edbfdd'))

def listName(fs):
    print fs.list()

if __name__ == '__main__':
    client = MongoClient('your ip', 27017) #连接mongodb
    db = client.photo #连接对应数据库
    #db.authenticate("username","passowd")
    fs = GridFS(db) #连接collection
    print "mongo has connected"
    getFile(fs)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值