利用python爬取网页选考要求数据

最新推荐文章于 2023-08-31 11:12:21 发布

追梦xy

最新推荐文章于 2023-08-31 11:12:21 发布

阅读量330

点赞数

文章标签： python爬虫

本文链接：https://blog.csdn.net/qq_33294872/article/details/100584981

版权

爬取背景：福建省发布了选考要求数据，想要获取数据进行分析，无奈数据量太大

需求分析：要爬取数据的网站为 http://fj.101.com/gaokao/#/，需要将数据存储为csv格式。

爬取代码如下

# coding=gbk
import requests  # 引入爬虫所需的requests模块
from bs4 import BeautifulSoup  # 引入BS模块
import json
import csv

for index_num in range(876):
    index_num = str(index_num + 1)
    base_url = 'https://wjt-subject-tool-api.sdp.101.com/v1/actions/manage?_=1567736178037&page={}&page_size=30&school_name=&subject_name='
    target_url = base_url.format(index_num)  # 拼接完整的目标URL
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"
    }
    response = req

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

追梦xy

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用python爬取网页选考要求数据

爬取背景：福建省发布了选考要求数据，想要获取数据进行分析，无奈数据量太大需求分析：要爬取数据的网站为http://fj.101.com/gaokao/#/，需要将数据存储为csv格式。爬取代码如下# coding=gbkimport requests # 引入爬虫所需的requests模块from bs4 import BeautifulSoup # 引入BS模块im...
复制链接

扫一扫