网页抓取及信息提取（二）

最新推荐文章于 2024-06-18 17:04:43 发布

Rich Dad

最新推荐文章于 2024-06-18 17:04:43 发布

阅读量6.8k

点赞数 8

分类专栏： Anaconda Jupyter Notebook 文章标签： python 爬虫

I love 段奥娟

本文链接：https://blog.csdn.net/qq_44745905/article/details/110139869

版权

本文介绍如何从网页源代码中提取子链接，利用Python的字符串方法找到`href`属性值，结合网站域名形成完整URL。提供编程任务，要求提取国防科技大学录取分数线统计网页的子链接。

摘要由CSDN通过智能技术生成

时间煮雨
@R星校长

第`2`关：提取子链接

上一关我们学习了如何访问给定的网页并保存信息到本地，本关我们要从上一关访问的网页中提取出嵌套的url地址，即实现子链接的提取。

相关知识
课程视频《网页数据 - 获取url子链接》
下面通过文字进一步详细描述本关子链接提取的实现方法。

网页信息中的子链接

一个网站常常是一个主页中包含许多子链接，例如：
在这里插入图片描述
点击上图国防科技大学本科招生信息网的第一行“国防科技大学2016年录取分数统计”，就能跳转到其子网页：

子网页的网址为:
http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2017/717.html
这些链接一般保存在主页html源代码标签中的href属性值中，如下图所示：

在这里插入图片描述

如上图所示，这是我们在第二关保存的文本文件内容的一部分，我们发现href的值为:/site/gfkdbkzsxxw/lqfs/info/2017/717.html，刚好和子网页网址的后面一段相同，这就需要我们用到第一关的背景知识：
完整的URL = 协议 + 域名 + 资源在服务器上的路径，
即子网页网址 =

最低0.47元/天解锁文章

关注

8
点赞
踩
31

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。