任务:批量抓取网页pdf文件
有一个excel,里面有数千条指向pdf下载链接的网页地址,现在,需要批量抓取这些网页地址中的pdf文件。
python环境:
anaconda3
openpyxl
beautifulsoup4
读取excel,获取网页地址
使用openpyxl库,读取.xslx文件;
(曾尝试使用xlrd库读取.xsl文件,但无法获取超链接)
安装openpyxl
pip install openpyxl
提取xslx文件中的超链接
示例文件构造
公告日期
证券代码
公告标题
2018-04-20
603999.SH
2018-04-28
603998.SH
def readxlsx(path):
workbook = openpyxl.load_workbook(path)
Data_sheet = workbook.get_sheet_by_name('sheet1')
rowNum = Data_sheet.max_row #读取最大行数
c = 3 # 第三列是所需要提取的数据
server = 'http://news.windin.com/ns/'
for row in range(1, rowNum + 1):
link = Data_sheet.cell(row=row, column=c).value
url = re.split(r&