网页抓取及信息提取(二)

时间煮雨
@R星校长

2关:提取子链接

上一关我们学习了如何访问给定的网页并保存信息到本地,本关我们要从上一关访问的网页中提取出嵌套的url地址,即实现子链接的提取。

相关知识
课程视频《网页数据 - 获取url子链接》
下面通过文字进一步详细描述本关子链接提取的实现方法。

网页信息中的子链接

一个网站常常是一个主页中包含许多子链接,例如:
在这里插入图片描述
点击上图国防科技大学本科招生信息网的第一行“国防科技大学2016年录取分数统计”,就能跳转到其子网页:
在这里插入图片描述
子网页的网址为:
http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2017/717.html
这些链接一般保存在主页html源代码标签中的href属性值中,如下图所示:

在这里插入图片描述

如上图所示,这是我们在第二关保存的文本文件内容的一部分,我们发现href的值为:/site/gfkdbkzsxxw/lqfs/info/2017/717.html,刚好和子网页网址的后面一段相同,这就需要我们用到第一关的背景知识:
完整的URL = 协议 + 域名 + 资源在服务器上的路径
子网页网址 = "http://"<

  • 8
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值