原标题:使用Python批量下载Wind数据库中的PDF报告
背景
最近小编出于工作需要,准备在Wind金融数据终端批量下载上市公司2019年第一季度业绩预告。通过相关的条件检索,发现其相关数据有近百条。由于Wind金融数据终端目前并不支持批量下载公司公告(只能逐个点击链接后下载pdf格式的公告)。因此,如果手动点击鼠标逐条下载公告的话,花费几个小时是非常耗时的,特别是如果检索的公告有上千条的话,那小编是绝对会拒绝点击鼠标的。
解决方案
小编在这里将介绍利用Python网络爬虫这一利器,来解决Wind数据库中批量下载公告的问题。
批量下载的思路是:Wind金融数据库仅仅提供以Excel/CSV格式保存的url链接(见下图,数据),因此本文将通过解析url链接去获取上市企业的公告文本(pdf格式)。
少说多做,show me the code,全部码源如下:
# 导入所需的第三方模块
importrequests
frombs4 importBeautifulSoup
importos
importpandas aspd
# 读取链接
urls = pd.read_excel(r'test123.xls').url123
# 构造用户代理,防止反爬虫
headers = {'User-Agen