Scrapy_LinkExtractor

使用LinkExtractor提取链接

提取页面链接有Selector和LinkExtractor两种方法

因为链接也是页面中的数据,所以可以使用与提取数据相同的方法进行提取,在提取少量(几个)链接或提取规则比较简单时,使用selector就足够了

Scrapy提供了一个专门用于提取链接的类LinkExtractor,在提取大量链接或提取规则比较复杂时,使用LinkExtractor更加方便

描述LinkExtractor提取规则

导入LinkExtractor,位于scrapy.linkextractors模块
from scrapy.linkextractors import LinkExtractor

创建一个LinkExtractor对象,使用一个或多个构造器参数描述提取规则,下面详见
le = LinkExtractor(构造器参数)

调用LinkExtractor对象的extract_links方法传入一个Response对象,该方法依据创建对象时所描述的提取规则,
在Response对象所包含的页面中提取链接,最终返回一个列表,其中的每一个元素都是一个Link对象,即提取到的一个链接
links = le.extract_links(respons)

用links[index]获取Link对象,Link对象的url属性便是链接页面的绝对url地址(无须再调用response.urljoin方法)
url = link[index].url

LinkExtractor构造器参数描述

为了讲解举例,首先制造一个实验环境,创建两个包含多个链接的HTML页面

<!--example1.html-->
<!DOCTYPE html>
<html>
<head>
	<title>LinkExtractor</title>
</head>
<body>
	<div id="top">
		<p>下面是一些站内链接</p>
		<a class="internal" href="/intro/install.html">Installation guide</a>
		<a class="internal" href="/intro/tutorial.html">Tutorial</a>
		<a class="internal" href
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值