【python爬虫】全国大学生创业服务网项目按高校分类查询

最新推荐文章于 2025-01-05 20:43:23 发布

Laen丶

最新推荐文章于 2025-01-05 20:43:23 发布

阅读量2.3k

点赞数 1

本文链接：https://blog.csdn.net/qq_36303970/article/details/86914545

版权

博主利用Selenium爬取全国大学生创业服务网的数据，针对网站没有按高校分类的情况，编写了一个小爬虫实现按高校分类抓取信息。虽然网站Ajax数据可直接获取，但选择使用Selenium进行抓取以复习其用法。文章提到网站数据加载速度慢，需要注意确保数据加载完成，否则可能引发错误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

这是本站的第一篇博客，本来想写些环境搭建的，但是基本上所需的环境我都已经搭建好了，以后如果遇到再说吧。
过年在家闲的无聊，到全国大学生创业服务网上随便看看找点灵感，想看看自己学校有哪些项目，发现其导航分类竟然没有按高校分，因此我写了个小爬虫按高校分类抓数据。在这里插入图片描述

正文

对数据内容进行分类查询，下一页等操作发现网站url无变化，心想这又是要抓Ajax数据啊?
不过简单分析下发现这个网站Ajax数据好像可以直接抓?，没有难度。
在这里插入图片描述
因此就决定用Selenium来抓，就当复习其用法了。

爬虫过程

在这里插入图片描述

代码（python3.6）

import csv
import requests
from lxml import etree
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By


class PioneerSpider(object):
    headers = {
   
        "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36"
    }
    driver_path = r"/home/laen/program/chromedriver_linux64/chromedriver"

    def __init__(self):
        self.driver = webdriver.Chrome(executable_path=self.driver_path)
        self.url = "http://cy.ncss.org.cn/search/projects#"
        fp = open("pioneer.csv",

最低0.47元/天解锁文章