python爬虫类型_Python爬虫:爬取国内所有高校名称、类型、官网

本文介绍了一个使用Python爬虫技术抓取中国各省份高校基本信息的实例,包括高校名称、类型和官网链接。数据通过访问特定黄页获取,并按省份存储为Excel文件,同时对数据进行了清洗,去除编号和特殊标识。
摘要由CSDN通过智能技术生成

本博客仅用于技术讨论,若有侵权,联系笔者删除。

此次的目的是爬取国内高校的基本信息,并按省份存储。爬取的黄页是http://www.gx211.com/gxmd/gx-bj.html。以下是结果图:

一、初始化数据

初始化基本的数据,包括global变量,省份名称等等。

from bs4 import BeautifulSoup

from selenium import webdriver

import pandas as pd

import requests

import csv

from string import digits

#初始化

def init():

global url, headers, province_name, province_url_address, driver

url = 'http://www.gx211.com/gxmd/'

province_name = [

'北京', '天津', '河北', '山西', '辽宁', '吉林', '黑龙江', '上海',

'江苏', '浙江', '安徽', '福建', '江西', '山东', '河南', '湖北',

'湖南', '广东', '

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值