python网上批量下载表格_python爬虫智能翻页批量下载文件的实例详解

最新推荐文章于 2023-08-04 11:16:52 发布

周君笔

最新推荐文章于 2023-08-04 11:16:52 发布

阅读量1.1k

点赞数

文章标签： python网上批量下载表格

本文链接：https://blog.csdn.net/weixin_29306011/article/details/113675314

版权

本文介绍了如何使用Python爬虫实现智能翻页并批量下载网页上的PDF文件。以京客隆网站为例，通过解析HTML获取分类名称和URL，接着遍历每个分类，翻页获取每个列表项的文件名和链接，最后将文件保存到本地。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬虫遇到爬取文件内容时，需要一页页的翻页爬取，这样很是麻烦，其实可以获取每个列表信息下的文件名和文件链接，让文件名和文件链接处理为列表，保存后下载，实现智能翻页批量下载文件，本文以以京客隆为例，批量下载文件，如财务资料，他的每一份报告都是一份pdf格式的文档。以此页面为目标，下载他每个分类的文件python爬虫实战之智能翻页批量下载文件。

1、引入库

import requests

import pandas as pd

from lxml import etree

import re

import os

2、解析初始页面

baseUrl ='http://www.jkl.com.cn/cn/invest.aspx' # 爬取页面的数据

heade ={

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

Chrome/81.0.4044.92 Safari/537.36'

}