爬虫爬取信息（python））

最新推荐文章于 2024-05-03 14:23:24 发布

可小阿木

最新推荐文章于 2024-05-03 14:23:24 发布

阅读量3.3k

点赞数

文章标签： r语言网络协议 python 爬虫

本文链接：https://blog.csdn.net/qq_53329531/article/details/121384556

版权

先来爬点简单的，然后再爬其他的东西

文章目录

1，实验工具
2，爬取网站
- 1，先打开要爬的学校网站
- 2，代码
3，爬取学校官网的信息通知
- 1，查看网站
- 2，代码
4，总结
5，参考

1，实验工具

anaconda

2，爬取网站

话不多说，直接上干货

1，先打开要爬的学校网站

我爬的是http://www.51mxd.cn/problemset.php-page=1.htm。然后查看页面源代码，可以要看到我们要爬取的信息都在TD这个标签内
在这里插入图片描述可以看到，我们要的东西就在这个TD里面，我们要做的就是把他们弄出来

2，代码

导入包

#导入包
import requests
from bs4 import BeautifulSoup
import csv
from tqdm import tqdm#在电脑终端上显示进度，使代码可视化进度加快

定义访问浏览器所需的请求头和写入csv文件需要的表头以及存放题目数据的列表

# 模拟浏览器访问
Headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'
# 题目数据
subjects = []
# 表头
csvHeaders = ['题号', '难度', '标题', '通过率', '通过数/总提交数']

定义爬取函数

for pages in tqdm(range(1, 11 + 1)):

    r = requests.get(f'http://www.51mxd.cn/problemset.php-page={pages}.htm', Headers)

    r.raise_for_status()

    r.encoding = 'utf-8'

    soup = BeautifulSoup(r.

最低0.47元/天解锁文章

可小阿木

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
爬虫爬取信息（python））

先来爬点简单的，然后再爬其他的东西文章目录1，实验工具2，爬取网站1，先打开要爬的学校网站2，代码3，爬取学校官网的信息通知1，查看网站2，代码4，总结5，参考1，实验工具anaconda2，爬取网站话不多说，直接上干货1，先打开要爬的学校网站我爬的是http://www.51mxd.cn/problemset.php-page=1.htm。然后查看页面源代码，可以要看到我们要爬取的信息都在TD这个标签内可以看到，我们要的东西就在这个TD里面，我们要做的就是把他们弄出来2，代码导入包#
复制链接

扫一扫