使用python 下载_使用python下载大量文件

最新推荐文章于 2024-08-10 16:17:02 发布

AIWorldLabs

最新推荐文章于 2024-08-10 16:17:02 发布

阅读量340

点赞数

文章标签：使用python 下载

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31058323/article/details/113552054

版权

有没有一种好方法可以使用python下载大量文件？这段代码足够快速下载大约100个文件。但我需要下载300000个文件。显然它们都是非常小的文件(或者我不会下载300000个)，所以真正的瓶颈似乎是这个循环。有人有什么想法吗？可能使用MPI或线程？

我只需要忍受瓶颈吗？或者有没有更快的方法，甚至不使用python？

(为了完整起见，我包含了代码的完整开头)from __future__ import division

import pandas as pd

import numpy as np

import urllib2

import os

import linecache

#we start with a huge file of urls

data= pd.read_csv("edgar.csv")

datatemp2=data[data['form'].str.contains("14A")]

datatemp3=data[data['form'].str.contains("14C")]

#data2 is the cut-down file

data2=datatemp2.append(datatemp3)

flist=np.array(data2['filename'])

print len(flist)

print flist

###below we have a script to download all of the files in the data2 database

###here you will need to create a new directory named edgar14A14C in your CWD

original=os.getcwd().copy()

os.chdir(str(os.getcwd())+str('/edgar14A14C'))

for i in xrange(len(flist)):

url = "ftp://ftp.sec.gov/"+str(flist[i])

file_name = str(url.split('/')[-1])

u = urllib2.urlopen(url)

f = open(file_name, 'wb')

f.write(u.read())

f.close()

print i

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。