@R星校长
第2
关:提取子链接
上一关我们学习了如何访问给定的网页并保存信息到本地,本关我们要从上一关访问的网页中提取出嵌套的url
地址,即实现子链接的提取。
相关知识
课程视频《网页数据 - 获取url子链接》
下面通过文字进一步详细描述本关子链接提取的实现方法。
网页信息中的子链接
一个网站常常是一个主页中包含许多子链接,例如:
点击上图国防科技大学本科招生信息网的第一行“国防科技大学2016年录取分数统计”,就能跳转到其子网页:
子网页的网址为:
http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2017/717.html
这些链接一般保存在主页html
源代码标签中的href
属性值中,如下图所示:
如上图所示,这是我们在第二关保存的文本文件内容的一部分,我们发现href
的值为:/site/gfkdbkzsxxw/lqfs/info/2017/717.html
,刚好和子网页网址的后面一段相同,这就需要我们用到第一关的背景知识:
完整的URL
= 协议
+ 域名
+ 资源在服务器上的路径
,
即子网页网址
=