使用python 下载_使用python下载大量文件

有没有一种很好的方法来使用

python大量下载大量文件?此代码足够快速下载大约100个左右的文件.但我需要下载300,000个文件.显然它们都是非常小的文件(或者我不会下载300,000个:))所以真正的瓶颈似乎是这个循环.有人有想法吗?也许使用MPI或线程?

我只需要和瓶颈一起生活吗?或者有更快的方式,甚至可能没有使用python?

(为了完整起见,我包含了代码的完整开头)

from __future__ import division

import pandas as pd

import numpy as np

import urllib2

import os

import linecache

#we start with a huge file of urls

data= pd.read_csv("edgar.csv")

datatemp2=data[data['form'].str.contains("14A")]

datatemp3=data[data['form'].str.contains("14C")]

#data2 is the cut-down file

data2=datatemp2.append(datatemp3)

flist=np.array(data2['filename'])

print len(flist)

print flist

###below we have a script to download all of the files in the data2 database

###here you will need to create a new directory named edgar14A14C in your CWD

original=os.getcwd().copy()

os.chdir(str(os.getcwd())+str('/edgar14A14C'))

for i in xrange(len(flist)):

url = "ftp://ftp.sec.gov/"+str(flist[i])

file_name = str(url.split('/')[-1])

u = urllib2.urlopen(url)

f = open(file_name, 'wb')

f.write(u.read())

f.close()

print i

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值