python怎么批量下载年报_如何使用python批量下载统计年鉴中的excel网页?

本文介绍了如何使用Python批量下载统计年鉴中的Excel文件。通过分析网页源码,利用requests库获取Content-Type,发现是可下载的Excel类型,然后通过创建文件并写入响应内容实现批量下载。
摘要由CSDN通过智能技术生成

我们在使用python爬取数据时有时会碰到这样一种情况,有一些网站一点击并不会弹出一个网页,而是直接下载一个excel或者jpg文件。这种情况当然是好的,不用爬虫,就能直接下载数据了,但是有时候需要批量的下载这种网页数据,用鼠标逐条点击也是很麻烦的事情。

怎么来爬取这种数据呢,和爬取图片一样,使用requests的.content函数命令。

这里以爬取结构简单的统计年鉴为例,打开一个标准的统计年鉴html页面,F12进入开发者模式,左侧是目录,右侧是对应的源代码值。如下:微信图片_20190403215203-1024x454.png

我们一旦点击左侧的目录内容,就会直接下载一个命名为目录的excel文件,而不会弹出新页面,这样如果要下载一年的统计年鉴的话,得逐一点击左侧目录,200多下,还只是一年的,如果需要下载好几年的统计年鉴的话,显然成了个体力活,效率太低。我们分析一下源码结构,看右侧的源码结构很简单,herf都位于节点中,因此只要能让python能够自己下载保存这样的excel文件,之后通过beautifulsoup对整个网页结构的解析,就可以实现批量下载了。

首先我们看一下网页的Content-Type:import requests

import os

urls_tag='html/02-06.xls'

url='http://www.sjztj.gov.cn/uploadfile/nianjia

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值