前言
这是本站的第一篇博客,本来想写些环境搭建的,但是基本上所需的环境我都已经搭建好了,以后如果遇到再说吧。
过年在家闲的无聊,到全国大学生创业服务网上随便看看找点灵感,想看看自己学校有哪些项目,发现其导航分类竟然没有按高校分,因此我写了个小爬虫按高校分类抓数据。
正文
对数据内容进行分类查询,下一页等操作发现网站url无变化,心想这又是要抓Ajax数据啊?
不过简单分析下发现这个网站Ajax数据好像可以直接抓?,没有难度。
因此就决定用Selenium来抓,就当复习其用法了。
爬虫过程
代码(python3.6)
import csv
import requests
from lxml import etree
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
class PioneerSpider(object):
headers = {
"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36"
}
driver_path = r"/home/laen/program/chromedriver_linux64/chromedriver"
def __init__(self):
self.driver = webdriver.Chrome(executable_path=self.driver_path)
self.url = "http://cy.ncss.org.cn/search/projects#"
fp = open("pioneer.csv",