Python爬虫初探（六）——爬虫之xpath实战（爬取高考分数线信息）

最新推荐文章于 2024-06-28 16:44:25 发布

brilliant666

最新推荐文章于 2024-06-28 16:44:25 发布

阅读量2.2k

点赞数 3

分类专栏： python 爬虫文章标签： python xpath 正则表达式 html

本文链接：https://blog.csdn.net/brilliant666/article/details/107616533

版权

本文介绍如何使用Python和XPath爬取各省高考分数线。从获取URL、请求网页到解析HTML，通过XPath定位链接，并利用正则表达式修正不完整链接，最终成功获取并展示高考分数信息。

摘要由CSDN通过智能技术生成

一、得到要爬取的url
二、拿到网页源码
 三、得到各省份分数链接

上一章我们讨论了xpath的简单使用，这次我们就来实际应用一下xpath，看看它使用有多方便。
最近高考结束，各省分数线也陆续公布了，咱们今天就来爬取各省的高考分数线。看看每个省份的学生成绩如何。

一、得到要爬取的url

url地址如下：

url = 'https://gaokao.eol.cn/news/'

二、拿到网页源码

进行简单的get请求，唯一需要注意的是要带上请求头。还要注意乱码的问题。

headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
    }
response = requests.get(url,headers=headers)
response.encoding = 'utf-8'
shengfen

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

brilliant666

关注关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

基于python爬取全国2822所高校在各省，近三年的录取分数线

weixin_42464154的博客

06-18

1万+

最近全国高考结束，考生都在等分当中，鉴于自己之前一直有个想法，爬取各高校的信息，方便考生选择，因此完成了一下代码，爬取了全国2822所高校，包括本科和高职院校，在各省的分数线。下图是各高校在湖北省的，经过高校软科排名排序后的近3年录取分数情况：完整的数据下载地址：链接：https://pan.baidu.com/s/1uohDZQk2SPSjI0htZBJd1g 提取码：z1db数据中分数栏，空白部分，说明该学校在该省不招生。部分代码如下，未优化…...

历年高考录取分数线数据python爬虫

09-25

历年高考录取分数线数据，使用语言： python3.7 ，原生爬虫代码，练手项目，适合学习 python3 的程序员研究学习参考。

参与评论您还未登录，请先登录后发表或查看评论

【python爬虫课程设计】掌上高考-高校数据爬取+数据可视化

最新发布

m0_62283350的博客

06-28

2757

1. 根据柱状图了解到河南的非双一流学校最多，北京的双一流学校最多。2. 根据地图了解到国内大部分高校分在国家的东部和中部。3. 根据柱状图了解到大家对厦门大学、四川大学比较感兴趣。4. 根据柱状图了解到排名第一的福建省只有一所厦门大学热度超前，而四川省、湖北省、广东省、北京市的高校热度都较为平均。5. 根据散点图了解到全国各省的综合类的热度均较为突出。

高考录取分数线爬虫

jidawanghao的专栏

06-15

996

高考录取分数线

Python爬虫——爬取阳光高考专业数据并对所有专业进行数据分析

weixin_44371842的博客

06-08

3598

阳光高考是中国高考信息网，覆盖了中国所有院校以及所有专业信息。本文目的是爬取阳光高考的专业信息，包括专业名称，专业代码，专业简介，男女比例，在校生规模，就业方向，平均薪资等。并将结果输出为CSV文件。并对所有专业进行数据分析，分析专业毕业生薪资水平、学生规模、女生占比等。

Python 爬取高考各学校各专业录取分数线

qq_52383696的博客

08-09

3794

通过简单的网页分析，得到请求的接口，然后模拟这个过程即可。下学期有个个人项目，高考志愿填报系统，需要高考不同学校不同专业的录取分数线。

python去除最高分最低分数线_Python爬取历年高考分数线——预测2018年高考分数线...

weixin_39635657的博客

12-12

496

2.爬取数据1.获取各省的分数线信息有两种方法可以达到这个目的1).通过拼接URL链接切换省份，可以得出链接的变化规律：只要替换省份的拼音上去就可以请求到:http://www.gaokao.com/guangdong/fsx/http://www.gaokao.com/shanghai/fsx/推荐使用pypinyin模块——汉字拼音转换模块/工具。直接使用lazy_pinyin方法就可以得到各...

Python爬虫初探（九）——爬虫之Beautifulsoup4实战（爬取豆瓣信息）

brilliant666的博客

08-04

3529

前面两章咱们介绍了Beautifuisoup4模块的简单使用，今天就用它来爬取豆瓣信息。话不多说，咱们开始吧。一、拿到url地址二、获取豆瓣数据三、保存文件需求: 爬取标题、评分、详情页的地址在做这些工作之前，需要提前导入好库: import requests import bs4 from bs4 import BeautifulSoup 一、拿到url地址二、获取豆瓣数据三、保存文件 ...

Python爬虫进阶（八）——爬虫Scrapy实战之爬取腾讯招聘信息

brilliant666的博客

08-23

1958

前面咱们介绍了scrapy框架的使用，今天就用来爬取一下腾讯招聘的职位信息。

Python爬虫进阶（五）——爬虫之多线程爬虫实战（爬取王者荣耀皮肤）

brilliant666的博客

08-21

782

这一章，咱们通过实战来运用多线程爬虫，就来爬取目前最火的王者荣耀游戏的皮肤。

高考分数线爬取.py

12-01

用python爬取高考网各个省份历年高考分数线，将爬取到的数据放入MySQL的表中，将表中的数据做成折线图在网页中展示

Python爬虫实战之爬取全国理工类大学数量+数据可视化

brilliant666的博客

08-04

4466

前面两章，咱们介绍了Beautifulsoup4模块的简单用法，今天咱们就用来爬取高考各省的分数线，并简单实现一个数据可视化。

Python 助你填写高考志愿

生命在于折腾

06-29

5890

最近一周一直在帮家里小弟看高考志愿，所以更新的没那么频繁了，请大家见谅。在看各高校的往年分数时，忍不住手痒，想着能不能给它爬下来？哈哈，说干就干！ 1 流程分析之前无意中在这个网站发现有各个高校的历年录取分数线：https://gkcx.eol.cn。我们的目标是用 Python 将下面页面的数据导出到 Excel：这个页面的 URL 是：https://gkcx.e...

Python爬虫框架：scrapy爬取高考派大学数据

人生苦短，还不用Python？

08-29

1128

1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了，这个框架可以说是python爬虫框架里面出镜率最高的一个了，我们接下来重点研究一下它的使用规则。安装过程自己百度一下，就能找到3种以上的安装手法，哪一个都可以安装上可以参考 https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 官方说明进行安装。 2...

python爬取高考各高校分数线_Python爬取历年高考分数线——预测2018年高考分数线...

weixin_39795325的博客

11-29

876

原标题：Python爬取历年高考分数线——预测2018年高考分数线菜鸟学Python粉丝的第27篇投稿阅读本文大概需要4分钟高考已经结束了，相信绝大部分同学都在放松自己了，毕竟压抑了这么久。现在虽然距离高考放榜还有一段时间，可能有一些同学已经迫不及待地想知道自己考的怎样。因此，现在就来爬取高考网上的近几年高考分数线，看一下近几年分数线的变化趋势，从而心里面有个底，这样才能够更加放松的去嗨皮。使用的...

Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy