《学习日记之Python》——正则表达式爬取高考网的高校信息

最新推荐文章于 2024-06-28 16:44:25 发布

Kobe_WEZ

最新推荐文章于 2024-06-28 16:44:25 发布

阅读量970

点赞数 2

文章标签： python 高校信息爬虫

本文链接：https://blog.csdn.net/Kobe_WEZ/article/details/86444010

版权

本文记录了使用Python进行网络爬虫，抓取高考网广东地区高校信息的过程，包括查找元素、正则表达式提取信息及循环爬取多页数据。最终展示以中大为例的部分爬取结果，包含学校主页链接、高校所在地、类型、隶属、性质及学校网址。

摘要由CSDN通过智能技术生成

今天来学习利用正则表达式爬取高考网的高校信息

人生苦短，我用python

今天要爬取的是高考网广东地区的高校
链接：http://college.gaokao.com/schlist/a14/p

爬取如图下红色框框内的信息（包括学校主页的链接）
在这里插入图片描述

步骤一：查找元素所在位置
在这里插入图片描述
步骤二：用正则表达式提取所需信息

def parse_one_page(html):
    pattern=re.compile('<dt>.*?href="(.*?)".*?<img.*?src="(.*?)"'
                       +'.*?<li>(.*?)</li>.*?<li>.*?<li>(.*?)</li>'
                        +'.*?<li>(.*?)</li>.*?<li>(.*?)</li>.*?<li>(.*?)</li>

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kobe_WEZ

关注关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python 爬虫爬取高考录取分数线信息

阿豪

07-14

2293

原文链接: python 爬虫爬取高考录取分数线信息 ...

阳光高考网学校信息爬虫

12-03

python爬虫获取阳光高考网学校信息与对应专业。这是其源码和数据库文件。以供大家学习参考，如有不足请大家指出更改。

参与评论您还未登录，请先登录后发表或查看评论

50行Python代码获取高考志愿信息，再也不用百度啦！

Pythoncxy的博客

07-23

503

最近遇到个任务，需要将高考志愿信息保存成Excel表格，BOSS丢给我一个网址表格之后就让我自己干了。虽然我以前也学习过Python编写爬虫的知识，不过时间长了忘了，于是摸索了一天之后终于完成了任务。不得不说，Python干这个还是挺容易的，最后写完一看代码，只用了50行就完成了任务。 Python资源共享群：484031800 准备工作首先明确一下任务。首先我们要从...

【python爬虫课程设计】掌上高考-高校数据爬取+数据可视化

最新发布

m0_62283350的博客

06-28

2741

1. 根据柱状图了解到河南的非双一流学校最多，北京的双一流学校最多。2. 根据地图了解到国内大部分高校分在国家的东部和中部。3. 根据柱状图了解到大家对厦门大学、四川大学比较感兴趣。4. 根据柱状图了解到排名第一的福建省只有一所厦门大学热度超前，而四川省、湖北省、广东省、北京市的高校热度都较为平均。5. 根据散点图了解到全国各省的综合类的热度均较为突出。

用python爬取高考网历年高考分数线将数据放入MySQL并绘制图表

qq_43772802的博客

12-01

4053

用python爬取高考网历年高考分数线 # 导入爬虫的库 import requests from lxml import etree # 导入画图库 from pyecharts.charts import Bar, Line, Pie from pyecharts import options as opts # 导入数据库连接库 import pymysql # 定义函数test(),功能爬...

Python爬虫框架：scrapy爬取高考派大学数据

人生苦短，还不用Python？

08-29

1126

1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了，这个框架可以说是python爬虫框架里面出镜率最高的一个了，我们接下来重点研究一下它的使用规则。安装过程自己百度一下，就能找到3种以上的安装手法，哪一个都可以安装上可以参考 https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 官方说明进行安装。 2...

Python如何使用正则表达式爬取京东商品信息

10-15

本文主要介绍了如何使用Python编程语言和正则表达式来爬取京东商品信息。在开始爬虫之前，首先要了解目标网站京东的市场地位和商品信息的组织方式。京东是中国最大的自营式电商企业，商品信息丰富多样，因此通过正则...

Python re正则表达式爬取京东商品图片.py

04-19

Python re正则表达式爬取京东商品图片，实例源代码代码，部分代码：def geturllist(html): pattern = re.compile(r'data-lazy-img="//(.+?\\.jpg)"',re.M) imglist = re.findall(pattern, html) return imglist

python专题——正则表达式[整理].pdf

10-11

Python中的正则表达式是处理文本模式匹配的强大工具，它允许程序员通过简洁的语法来查找、替换或提取字符串中的特定模式。以下是对正则表达式关键概念的详细解释： 1. **简介**： - 正则表达式是用于描述字符串...

高考成绩发布！教你用Python爬取高校数据：看看哪些学校专业更受宠

m0_59164520的博客

06-20

2551

今天各地的2023年高考成绩陆续马上可以查询了，考生的志愿填报也随即提上日程。俗话说，七分考，三分报。想必同学们一定不想因高分低报而浪费分数，也不想低分高报而与大学失之交臂。**那么历年的高考人数、录取率如何？哪个地区的高校最多？都有什么专业最热门？**今天我们就用数据来聊一聊。

采用requests请求+xpath与正则表达式解析+Mysql与json存取:爬取高考网主页与子页的学校基本信息和往年录取分数线

狼性书生

03-06

923

爬取高考网主页与子页的学校基本信息和往年录取分数线高考网创建Mysql数据库和存储实现先了解下高考网的一些爬取阻碍完整代码 高考网 链接: http://college.gaokao.com/schlist/a14/p1/ 本章主要介绍下简单的爬取，不采用任何框架，只爬取广东省内的高校，让读者能对requests的请求方式,正则表达式与xpath的解析方式,json与MYSQL的存取方式有一定了解...

python爬虫+可视化，高校数据爬取+数据可视化

m0_65482549的博客

06-11

2761

Python数据可视化分析，爬取高校数据，制作可视化图表

正则表达式学习-中国大学MOOC-Python网络爬虫与信息提取-北京理工大学嵩天教授

LLM1602的博客

02-04

624

使用正则表达式和urllib模块爬取最好大学排名信息

编程小白养成手记

05-23

1264

题目使用urllib模块编程实现爬取网站的大学排名。 (网址：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html) （1）获取网站页面，分析代码结构特征；（2）处理页面，提取相关信息；（3）解析数据，输出结果。代码实现 Python3 import urllib.request import re # 获取指定url的源码信息 def getHTMLText(url): try: response = urllib.r

Python——爬取阳光高考所有高校（本科）

weixin_43213658的博客

01-19

2792

import pandas as pds for i in range(0,1240,20): url = 'https://gaokao.chsi.com.cn/sch/search.do?searchType=1&amp;xlcc=bk&amp;start='+str(i) if (i == 0): data =pds.read_html(url)[0] ...

Python爬虫实战之阳光高考专业库爬取

INGg__的博客

06-07

1805

直接贴代码了，这不是库的教程，我直接贴代码了吐槽一下，这网页的源码写的让我调的真难受 import requests import re import time def get_html(url): headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36

正则表达式详解

leedean的博客

03-06

567

单字符匹配： # 匹配某个字符串： text = "abc" ret = re.match('b',text) print(ret.group()) # 点（.）：匹配任意的字符(除了'\n')： text = "\nabc" ret = re.match('.',text) print(ret.group()) # \d：匹配任意的数字： text = "aab" ret = re.matc...