scrapy爬虫之LinkExtractor的使用

最新推荐文章于 2023-05-25 14:55:38 发布

py风之老凌

最新推荐文章于 2023-05-25 14:55:38 发布

阅读量2k

点赞数 1

分类专栏： python之scrapy框架爬虫文章标签： python 爬虫 scrapy

本文链接：https://blog.csdn.net/fengzhilaoling/article/details/107317870

版权

LinkExtractor

LinkExtractor构造器所有的参数都有默认值，如果构造对象不传参，默认提取页面中所有的链接

2020-07-13 15:24:53 [parso.python.diff] DEBUG: diff parser end
In [1]: from scrapy.linkextractors import LinkExtractor          
                                                     In [2]: le = LinkExtractor()                                     
In [3]: links = le.extract_links(response)                       
In [4]: [link.url for link in links]                             
Out[4]: 
['http://books.toscrape.com/index.html',
 'http://books.toscrape.com/catalogue/category/books_1/index.html',
 'http://books.toscrape.com/catalogue/category/books/travel_2/index.html',
 'http://books.toscrape.com/catalogue/category/books/mystery_3/index.html',

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

py风之老凌

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫之LinkExtractor的使用

LinkExtractorLinkExtractor构造器所有的参数都有默认值，如果构造对象不传参，默认提取页面中所有的链接2020-07-13 15:24:53 [parso.python.diff] DEBUG: diff parser endIn [1]: from scrapy.linkextractors import LinkExtractor In [2]:
复制链接

扫一扫