python高考专业数据爬取

该博客分享了一个使用Python进行网络爬虫的实例,通过requests库获取网页数据,json模块解析JSON响应,pandas处理数据并存储到Excel文件。代码演示了如何分页爬取特定网址上的专业信息,包括ID、名称、内容、工作、代码等字段。
摘要由CSDN通过智能技术生成

# coding=utf-8
import json
import pandas as pd
import requests
def detail(page_num):
    heads = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}  # 请求头
    url = 'https://static-data.gaokao.cn/www/2.0/special/%s/pc_special_detail.json'#Url
    d2 = pd.DataFrame()
    #分页爬取一页10个,需要对pandas进行安装pip install openpyxl
    for i in range(1,page_num):
        response = requests.get(url % (i), headers=heads)
        if response!=None:
            json_data = json.loads(response.text)
            my_json = json_data['data'] # 获得josn 数据的根目录
            df3 = pd.DataFrame({#d对my_json中文件进行获取
                'id':my_json['id'],
                'name':my_json['name'],
                '内容':my_json['content'],
                '工作':my_json['job'],
                'code':my_json['code'],
                'degree':my_json['degree'],
                '年限':my_json['limit_year'],
                '男女比例':my_json['rate'],
                'type':my_json['type'],
                'type_detail':my_json['type_detail']
            }, index=[0])
            d2 = d2.append(df3, ignore_index=True)
    print(d2)
    d2.to_excel("major.xlsx", index=False)

detail(5)
————————————————
版权声明:本文为CSDN博主「螺旋大西瓜」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_45208256/article/details/124950788

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值