四六级真题爬虫
今天报名了六级考试,在准备往年真题资料的时候,发现了下面这个神奇的网站。
在下载资料时,发现一个个点击文件夹,再进去点击下载链接太麻烦了。就想能不能写一个爬虫来爬取真题资源,于是有了以下代码。。。
import re
from pprint import pprint
import requests
from bs4 import BeautifulSoup
from urllib.parse import unquote, quote
def get_html(url):
try:
html = requests.get(url).text
except Exception as e:
print('web requests url error: {}\nlink: {}'.format(e, url))
return html
class WebDownloader(object):
def __init__(self, base_url):
self