python爬取大学生就业分析专科和本科的信息https://edu.jobui.com/major/(上)JSON的存储

该博客介绍了使用Python爬虫获取并分析大学生就业数据的过程,包括爬取URL、解析HTML、存储数据到JSON文件。数据展示了不同专业的就业指数,如工程管理、计算机科学与技术、英语等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,爬虫步骤
1.导入模块json,requests,lxml
2.url地址
3,请求头
4.get请求 200正常访问
5.解码
6.找到节点
7.创建一个存储所有信息的列表
8.循环遍历li节点
9.创建一个字典来存储每个li的内容
10.找到要爬取的内容将它们存储到字典里面
11.将每个字典存储到列表里面
12.将列表存储到JSON文件里面
13.爬取完成提示

二,爬虫源代码

import json
import requests as r
from lxml import etree

url = 'https://edu.jobui.com/major/'
hea = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                     'AppleWebKit/537.36 (KHTML, like Gecko) '
                     'Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.42'}
rel = r.get(url, headers=hea)
# print(rel)
cenet = rel.content.decode()
# print(cenet)
html = etree.HTML(cenet)
list_ol = html.xpath(".//ol[@class='tblist-list']/li")
list_xx = []
for ol in list_ol:
    d = {}
    zhuany = ol.xpath("a[@class='
要在“职友集”的页面上爬取全国Python开发工程师的职位需求排行并将其保存为JSON文件,可以按照以下步骤操作: ### 步骤 1: 分析目标网页 首先需要分析该网页的结构,了解数据是如何展示的。通常职位需求信息会包含技能名称、对应的需求数量等。 你可以通过浏览器开发者工具查看HTML元素,并找到相关的标签属性名。 ### 步骤 2: 使用 Python 爬虫库获取数据 推荐使用 `requests` `BeautifulSoup` 库来抓取解析网站内容。以下是示例代码框架: ```python import requests from bs4 import BeautifulSoup import json # 目标URL url = "https://www.jobui.com/trends/quanguo-pythonkaifagongchengshi/" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'html.parser') skills_list = [] for skill_row in soup.select('你需要定位到具体的表格行'): # 需要修改为你实际查找的内容选择器 skill_name = skill_row.find(...) # 抓取技能名字的部分 demand_count = skill_row.find(...) # 抓取对应的需求人数部分 skills_list.append({ 'skill_name': skill_name.text.strip(), 'demand_count': int(demand_count.text.replace(',', '')) if demand_count else None, }) # 将结果写入 JSON 文件 with open("jobui_python_skills.json", "w", encoding="utf-8") as f: json.dump(skills_list, f, ensure_ascii=False, indent=4) ``` 注意:上面提到的选择器以及 find 的具体内容取决于实际 HTML 结构,请依据实际情况调整。 ### 步骤 3: 测试与验证 运行脚本前务必确认请求是否正常返回所需的数据;同时检查生成的 JSON 是否符合预期格式及内容完整准确。 完成上述过程后即可得到一份描述职位需求情况JSON 数据文件了! ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值