先来爬点简单的,然后再爬其他的东西
1,实验工具
anaconda
2,爬取网站
话不多说,直接上干货
1,先打开要爬的学校网站
我爬的是http://www.51mxd.cn/problemset.php-page=1.htm。然后查看页面源代码,可以要看到我们要爬取的信息都在TD这个标签内
可以看到,我们要的东西就在这个TD里面,我们要做的就是把他们弄出来
2,代码
导入包
#导入包
import requests
from bs4 import BeautifulSoup
import csv
from tqdm import tqdm#在电脑终端上显示进度,使代码可视化进度加快
定义访问浏览器所需的请求头和写入csv文件需要的表头以及存放题目数据的列表
# 模拟浏览器访问
Headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'
# 题目数据
subjects = []
# 表头
csvHeaders = ['题号', '难度', '标题', '通过率', '通过数/总提交数']
定义爬取函数
for pages in tqdm(range(1, 11 + 1)):
r = requests.get(f'http://www.51mxd.cn/problemset.php-page={pages}.htm', Headers)
r.raise_for_status()
r.encoding = 'utf-8'
soup = BeautifulSoup(r.