Scrapy入门（2）

最新推荐文章于 2020-11-01 11:55:15 发布

爱吃番茄的胖超人

最新推荐文章于 2020-11-01 11:55:15 发布

阅读量370

点赞数

分类专栏： Scrapy python

本文链接：https://blog.csdn.net/Tomato_Sir/article/details/80068823

版权

本文介绍了使用Scrapy进行网页爬虫项目的调试，包括通过`scrapy shell`和IDE（VS Code）的Debug功能。接着展示了如何使用`CrawlerSpider`抓取有规律URL的公司信息，并通过Item Pipeline将数据保存到Excel。最后，针对需求变化，讨论了如何修改Spider以抓取特定类别公司的信息。

摘要由CSDN通过智能技术生成

调试

通常有两种方法对Scrapy项目进行调试，一种是通过scrapy.shell，另一种是通过IDE的Debug功能。这里介绍第二种。

运行环境
- 语言：python 3.6
- IDE： VS Code
- 浏览器：Chrome

scrapy shell

在命令行中输入 scrapy shell 【想要访问的页面url】
成功后会进入scrapy shell进行操作：
response.xpath(‘……’)进行测试

IDE Debug

首先在items.py同级目录下，创建run.py
run.py
coding如下：

from scrapy import cmdline

name = 'douban_book_top250'
cmd = 'scrapy crawl {0}'.format(name)
cmdline.execute(cmd.split())

其中，name为之前spider的name属性，接着在spider文件中（或者你想要的位置）设置断点。接着，在vs code中选择调试即可。程序会在断点出暂停，我们就可以查看相应内容进行调试。

抓取公司信息项目

crawlerspider

接到一个任务，爬取类似黄页的网站，抓取公司的基本信息（名称、业务类别、电话、邮件）。登录网站，查看相关的url：

ypurl

发现网站关于公司信息的url基本都是…/en/profile/数字+字母的格式，受小白进阶的启发，采用crawlerspider进行爬取。crawlerspider主要是对有规则的url进行爬取，代码如下：

import re
import scrapy
from scrapy.spiders import CrawlSpider, Rule, Request
from scrapy.linkextractors import LinkExtractor
from YellowPagesCrawler.items import YellowPagesCrawlerItem

class YPCrawler(CrawlSpider):

    name = 'YPCrawler'

    allowed_domains = ['yellowpages.co.th']
    start_urls = ['http://www.yellowpages.co.th']

    rules = (
        Rule(LinkExtractor(allow=(),restrict_xpaths=('//a[@href]')),
        callback='parse_item',follow=True),
    )

    def parse_item(self,response):

        if (re.search(

最低0.47元/天解锁文章

爱吃番茄的胖超人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy入门（2）

调试通常有两种方法对Scrapy项目进行调试，一种是通过scrapy.shell，另一种是通过IDE的Debug功能。这里介绍第二种。运行环境 - 语言：python 3.6 - IDE： VS Code - 浏览器：Chromescrapy shell在命令行中输入 scrapy shell 【想要访问的页面url】成功后会进入scrapy shell进行操作： ...
复制链接

扫一扫

专栏目录