使用Python批量下载Wind数据库中的PDF报告

最新推荐文章于 2024-01-22 23:42:06 发布

Sim1480

最新推荐文章于 2024-01-22 23:42:06 发布

阅读量2.9k

点赞数 2

本文链接：https://blog.csdn.net/lsxxx2011/article/details/98765280

版权

背景

最近小编出于工作需要，准备在Wind金融数据终端批量下载上市公司2019年第一季度业绩预告。通过相关的条件检索，发现其相关数据有近百条。由于Wind金融数据终端目前并不支持批量下载公司公告（只能逐个点击链接后下载pdf格式的公告）。因此，如果手动点击鼠标逐条下载公告的话，花费几个小时是非常耗时的，特别是如果检索的公告有上千条的话，那小编是绝对会拒绝点击鼠标的。

解决方案

小编在这里将介绍利用Python网络爬虫这一利器，来解决Wind数据库中批量下载公告的问题。

批量下载的思路是：Wind金融数据库仅仅提供以Excel/CSV格式保存的url链接（见下图，数据），因此本文将通过解析url链接去获取上市企业的公告文本（pdf格式）。

640?wx_fmt=png

少说多做，show me the code，全部码源如下：

# 导入所需的第三方模块import requestsfrom bs4 import BeautifulSoupimport osimport pandas as pd# 读取链接urls = pd.read_excel(r'test123.xls').url123# 构造用户代理，防止反爬虫headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'}# 创建目录stockCode = "00"path = stockCodeisExists = os.path.exists(stockCode)if not isExists:    os.makedirs(path)     print(path+' 创建成功')else:    # 如果目录存在则不创建，并提示目录已存在    print(path+' 目录已存在')# 循环每一个链接for url in urls:    content = requests.get(url, headers = headers).text    soup = BeautifulSoup(content, 'html.parser')    # 返回文件地址和名称    fileUrl = "http://snap.windin.com/ns/" + soup.find(name = 'a', attrs = {'class':'big'})['href']    fileName = soup.find(name = 'a', attrs = {'class':'big'})['title']    file = requests.get(fileUrl, headers = headers)  # 下载文件    # 保存文件    with open( stockCode + "/" + fileName, "wb") as baogao:        baogao.write(file.content)        baogao.close()

提示

在大批量的下载过程中，很可能会出现部分pdf下载为空的情况。此时，循环语句将会中断，因此可以对该条链接手动下载后，将其在excel表格中的链接删除。在此基础上，重新运行代码，程序将继续执行批量下载剩余的公告pdf。（亲测批量下载900个pdf也就大约需要不到8分钟时间，这绝对节约了生命）。

致谢

感谢赵博士能够在百忙之中抽空写文并投稿至我公众号，并将他在工作中碰到的难题，以及解决方案分享给大家。