本博客仅用于技术讨论,若有侵权,联系笔者删除。
此次的目的是爬取国内高校的基本信息,并按省份存储。爬取的黄页是http://www.gx211.com/gxmd/gx-bj.html。以下是结果图:
一、初始化数据
初始化基本的数据,包括global变量,省份名称等等。
from bs4 import BeautifulSoup
from selenium import webdriver
import pandas as pd
import requests
import csv
from string import digits
#初始化
def init():
global url, headers, province_name, province_url_address, driver
url = 'http://www.gx211.com/gxmd/'
province_name = [
'北京', '天津', '河北', '山西', '辽宁', '吉林', '黑龙江', '上海',
'江苏', '浙江', '安徽', '福建', '江西', '山东', '河南', '湖北',
'湖南', '广东', '