任务:批量抓取网页pdf文件
有一个excel,里面有数千条指向pdf下载链接的网页地址,现在,需要批量抓取这些网页地址中的pdf文件。
python环境:
anaconda3
openpyxl
beautifulsoup4
读取excel,获取网页地址
使用openpyxl库,读取.xslx文件;
(曾尝试使用xlrd库读取.xsl文件,但无法获取超链接)
-
安装openpyxl
pip install openpyxl
-
提取xslx文件中的超链接
示例文件构造
公告日期 | 证券代码 | 公告标题 |
---|---|---|
2018-04-20 | 603999.SH | 读者传媒:2017年年度报告 |
2018-04-28 | 603998.SH | 方盛制药:2017年年度报告 |