四六级真题爬虫

本文介绍了一位作者在准备六级考试时,为方便下载历年真题,利用Python编写爬虫自动抓取网站资源的过程,旨在简化手动下载的繁琐步骤。
摘要由CSDN通过智能技术生成

四六级真题爬虫

今天报名了六级考试,在准备往年真题资料的时候,发现了下面这个神奇的网站。

友沃可云

在下载资料时,发现一个个点击文件夹,再进去点击下载链接太麻烦了。就想能不能写一个爬虫来爬取真题资源,于是有了以下代码。。。

import re
from pprint import pprint
import requests
from bs4 import BeautifulSoup
from urllib.parse import unquote, quote
 
 
def get_html(url):
    try:
        html = requests.get(url).text
    except Exception as e:
        print('web requests url error: {}\nlink: {}'.format(e, url))
    return html
 
 
class WebDownloader(object):
 
    def __init__(self, base_url):
        self
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值