六.scrapy crawlspider

最新推荐文章于 2023-05-25 15:11:29 发布

top_beyond

最新推荐文章于 2023-05-25 15:11:29 发布

阅读量702

点赞数 2

分类专栏： python scrapy爬虫

本文链接：https://blog.csdn.net/beyond_f/article/details/74357539

版权

python scrapy爬虫专栏收录该内容

11 篇文章 1 订阅

订阅专栏

一.理论逻辑图

二.创建项目

scrapy startproject mycrawl

cd mycrawl

scrapy genspider -t crawl mycrawlspider sohu.com

#codoing:utf-8
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class WeisuenSpider(CrawlSpider):
    name = 'mycrawlspider'
    allowed_domains = ['sohu.com']
    start_urls = ['http://sohu.com/']

    rules = (
        Rule(LinkExtractor(allow=(r'.shtml',),allow_domains=('sohu.com',)), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print response.url

注意follow=True 代表会一直追踪下去，follow=False一次循环就结束

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

top_beyond

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
六.scrapy crawlspider

一.理论逻辑图二.创建项目scrapy startproject mycrawlcd mycrawlscrapy genspider -t crawl mycrawlspider sohu.com#codoing:utf-8import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scra
复制链接

扫一扫