四六级真题爬虫

最新推荐文章于 2021-11-04 10:31:59 发布

Joey-Hu

最新推荐文章于 2021-11-04 10:31:59 发布

阅读量1.7k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/Ahu_hu/article/details/107767226

版权

本文介绍了一位作者在准备六级考试时，为方便下载历年真题，利用Python编写爬虫自动抓取网站资源的过程，旨在简化手动下载的繁琐步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

四六级真题爬虫

今天报名了六级考试，在准备往年真题资料的时候，发现了下面这个神奇的网站。

友沃可云

在下载资料时，发现一个个点击文件夹，再进去点击下载链接太麻烦了。就想能不能写一个爬虫来爬取真题资源，于是有了以下代码。。。

import re
from pprint import pprint
import requests
from bs4 import BeautifulSoup
from urllib.parse import unquote, quote
 
 
def get_html(url):
    try:
        html = requests.get(url).text
    except Exception as e:
        print('web requests url error: {}\nlink: {}'.format(e, url))
    return html
 
 
class WebDownloader(object):
 
    def __init__(self, base_url):
        self